Towards Efficient Sentiment Analysis in Moroccan Darija with Modern Deep Learning Models and Advanced Text Representations

Par : Madame AMNAY Meriem

Le lundi 30 mars 2026 à 09:00

(La soutenance est reportée à une date ultérieure)

Le Doyen de la Faculté des Sciences et Techniques de Béni Mellal porte à la connaissance du public que Madame AMNAY Meriem soutiendra une thèse de Doctorat intitulée : « Towards Efficient Sentiment Analysis in Moroccan Darija with Modern Deep Learning Models and Advanced Text Representations ».

La soutenance publique aura lieu le Lundi 30 Mars 2026 à 09h00 à l’Ecole Nationale des Sciences Appliquées de Khouribga, devant le jury composé de :

Monsieur Noureddine ABOUTABIT : Professeur, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Président ;
Monsieur Abdelghafour ATLAS : Professeur, Ecole Nationale des Sciences Appliquées, Université Cadi Ayyad, Marrakech, Rapporteur ;
Madame Nidal LAMGHARI : Maître de Conférences Habilité, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Rapporteure ;
Madame Nassima SOUSSI : Maître de Conférences Habilité, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Rapporteure ;
Monsieur Lekbir AFRAITES : Professeur, Faculté des Sciences et Techniques, Université Sultan Moulay Slimane, Béni Mellal, Examinateur ;
Monsieur Imad HAFIDI : Professeur, Ecole Nationale des Sciences Appliquées, Université Sultan Moulay Slimane, Khouribga, Directeur de thèse.

Résumé:

L’analyse de sentiment en arabe marocain (Darija) constitue un défi majeur suite au manque des ressources annotées, de la forte variabilité linguistique du dialecte et du caractère informel des contenus générés par les utilisateurs. Ce travail examine comment les méthodes récentes d’apprentissage de représentations ainsi que les stratégies d’annotation adaptatives peuvent améliorer les performances de classification tout en réduisant les coûts liés à l’annotation. Une première partie présente l’évolution du traitement automatique des langues (TAL), en mettant l’accent sur le rôle central des méthodes de représentation textuelle, depuis les approches classiques basées sur la vectorisation jusqu’aux modèles contextuels issus des architectures Transformer. Une étude expérimentale comparative est ensuite menée entre des représentations vectorielles traditionnelles (TF-IDF, embeddings statiques) et des embeddings contextuels, évaluées à l’aide de plusieurs classifieurs et métriques standards. Les résultats confirment la supériorité des représentations contextuelles pour capturer le contexte sémantique et la variabilité propre aux textes dialectaux et bruités. Afin de pallier le manque de données annotées, un cadre d’apprentissage actif couplé à des modèles Transformer est proposé. En sélectionnant de manière itérative les exemples les plus informatifs, cette approche permet d’obtenir des performances élevées avec un budget d’annotation significativement réduit. Le cadre est enfin étendu vers une approche hybride intégrant l’apprentissage par renforcement, permettant d’optimiser dynamiquement la stratégie de sélection des échantillons. Les expérimentations montrent que cette combinaison active–renforcement améliore de manière équilibrée la précision, le rappel, le F1-score et l’exactitude par rapport à l’apprentissage supervisé classique et à l’apprentissage actif standard, tout en maintenant un effort d’annotation réduit. Ce travail propose ainsi une évaluation structurée et un pipeline méthodologique robuste pour l’analyse de sentiment en darija, mettant en évidence l’apport combiné des représentations contextuelles, de l’apprentissage actif et de l’apprentissage par renforcement dans les contextes dialectaux à faibles ressources.

Mots-clés : Analyse de sentiment ; Darija ;Embeddings ; Transformer ; Apprentissage actif ; Apprentissage par renforcement ; Traitement automatique du langage