Recognition of handwritten Arabic script

Par : Monsieur DAHBALI Mohamed

Le lundi 30 mars 2026 à 12:00

Avis de soutenance de Thèse de Doctorat

Le Doyen de la Faculté des Sciences et Techniques de Béni Mellal porte à la connaissance du public que Monsieur DAHBALI Mohamed soutiendra une thèse de Doctorat intitulée : « Recognition of handwritten Arabic script».

La soutenance publique aura lieu le Lundi 30 Mars 2026 à 12h00 à l’Ecole Nationale des Sciences Appliquées de Khouribga, devant le jury composé de :

Monsieur Imad HAFIDI : Professeur, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Président/ Rapporteur ;
Monsieur Abdelmotalib METRANE : Professeur, Faculté des Sciences et Techniques, Université Cadi Ayyad, Marrakech, Rapporteur ;
Monsieur Lekbir AFRAITES : Professeur, Faculté des Sciences et Techniques, Université Sultan Moulay Slimane, Béni Mellal, Rapporteur ;
Madame Nassima SOUSSI : Maître de Conférences Habilité, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Examinatrice ;
Madame Nidal LAMGHARI : Maître de Conférences Habilité, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Co-directrice de thèse ;
Monsieur Noureddine ABOUTABIT : Professeur, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Directeur de thèse.

Résumé:

Au cours des dernières décennies, la reconnaissance de l'écriture manuscrite arabe a suscité un intérêt scientifique considérable, conduisant à la création de nombreuses applications opérationnelles dans divers secteurs, notamment la banque, l'éducation et les documents administratifs. Les caractéristiques morphologiques complexes de l'écriture arabe font de ce domaine un champ d'étude dynamique, car elles présentent des obstacles importants qui entravent l'efficacité des systèmes de reconnaissance contemporains. La reconnaissance des sous-mots extraits de manuscrits arabes historiques est particulièrement difficile en raison de problèmes tels que la détérioration physique, les styles d'écriture non standardisés, la rareté des ensembles de données annotées et le problème du déséquilibre des classes. Cette thèse contribue au domaine de la reconnaissance des manuscrits arabes historiques. Dans un premier temps, nous suggérons de combiner trois bases de données exhaustives, tant au niveau des caractères qu'à celui des sous-mots : la base de données IBN-SINA, la base de données VML-HD et la base de données MOJ-DB, qui, ensemble, comptent 771 102 images réparties sur 10 096 classes, avec un vocabulaire total de 63 caractères. Deuxièmement, nous proposons une approche globale pour la reconnaissance des sous-mots, utilisant quatre architectures d'apprentissage profond : CNN, CNN combiné à BLSTM, CNN combiné à BGRU et un transformateur de vision. Une validation croisée stratifiée par k-folds est utilisée dans le processus d'évaluation. Les expériences menées sur les trois bases de données distinctes, ainsi que sur la base de données combinée, ont donné des résultats encourageants. Troisièmement, nous présentons deux méthodes de modélisation au niveau du caractère des sous-mots utilisant CNN-BLSTM et CNN-BGRU, intégrées à une couche de classification temporelle connexionniste qui évite la nécessité de la segmentation des caractères, une tâche difficile dans le contexte des manuscrits historiques. Une validation croisée K-fold est utilisée pour l'évaluation sur les trois bases de données, ainsi que sur la base de données fusionnée. Les systèmes présentés démontrent des résultats satisfaisants. Une analyse comparative des résultats obtenus et de ceux issus de l'approche globale est proposée afin de fournir des informations complémentaires.

Mots-clés : Documents historiques, Reconnaissance de l'écriture manuscrite, base de données arabe, CNN - BLSTM – BGRU, Transformateur de vision.