← Retour aux articles scientifiques
2026-03-18 · OURO-BANG'NA Wahabou
Vers un treebank minimal pour le Tem : modélisation syntaxique du redoublement du sujet dans une langue gur
Résumé
Cet article présente la construction d’un mini-treebank pour la langue tem (Gur, Togo), dans le cadre du projet GraphPhon.
Le corpus, annoté au format Universal Dependencies (UD), met en évidence une propriété syntaxique centrale du tem : l’obligation du pronom sujet, y compris en présence d’un sujet lexical explicite.
Nous proposons une modélisation du redoublement du sujet à travers la relation expl:subj, tout en conservant le nom comme nsubj.
Le dataset comprend 28 phrases validées et 5 phrases en cours de révision.
Cette contribution constitue une première ressource structurée pour le traitement automatique du tem et ouvre la voie à des applications en annotation, parsing et reconnaissance vocale.
Contenu complet
Introduction
Cet article présente la construction d’un mini-treebank pour la langue tem (Gur, Togo), dans le cadre du projet GraphPhon. Le corpus, annoté au format Universal Dependencies (UD), met en évidence une propriété syntaxique centrale du tem : l’obligation du pronom sujet, y compris en présence d’un sujet lexical explicite. Nous proposons une modélisation du redoublement du sujet à travers la relation expl:subj, tout en conservant le nom comme nsubj. Le dataset comprend 28 phrases validées et 5 phrases en cours de révision. Cette contribution constitue une première ressource structurée pour le traitement automatique du tem et ouvre la voie à des applications en annotation, parsing et reconnaissance vocale.
1. Particularité linguistique du tem
Une caractéristique majeure du tem est l’obligation du pronom sujet.
Cas 1 : sans nom
Wɔɔ gɔ́nɩ.
Il est arrivé.
Cas 2 : avec nom propre
Abu wɔɔ gɔ́nɩ.
Abu, il est arrivé.
Contrairement au français ou à l’anglais, le pronom n’est pas optionnel. Il joue un rôle grammatical structurant.
Interprétation :
-le nom introduit le référent
-le pronom réalise l’accord grammatical
-le verbe dépend du pronom
2. Modélisation en Universal Dependencies
Nous adoptons les conventions suivantes :
2.1 Cas simple
-PRON + VERB
-PRON → nsubj
-VERB → root
2.2 Cas avec redoublement
-PROPN + PRON + VERB
-PROPN → nsubj
-PRON → expl:subj
-VERB → root
Justification
Le pronom est grammaticalement requis, mais le nom reste le sujet sémantique. Le choix de expl:subj permet de modéliser ce redoublement sans violer les conventions UD.
3. Structure du dataset
3.1 Corpus clean :
-28 phrases validées
-structures régulières PRON + VERB
-cas avec redoublement correctement annotés
3.2 Corpus rework :
5 phrases
-problèmes identifiés :
-faible confiance lexicale
-ambiguïtés morphologiques
-erreurs d’annotation
3.3 Format
-CoNLL-U
-Multiword Tokens (MWT) pour formes fusionnées :
aadɔ́ɔ = aa + dɔ́ɔ
3.4 Annotation morphologique
-Person, Number
-Aspect, Mood
-XPOS spécifique : V_TEM_*
MISC :
-Segmentation
-Mutation phonologique
-Ton
4. Résultats
Le corpus obtenu présente :
-cohérence syntaxique sur les formes régulières
-modélisation stable du redoublement du sujet
-séparation claire entre données fiables et données à corriger
Ce mini-treebank constitue une base exploitable pour :
-entraînement de modèles NLP
-parsing syntaxique
-alignement audio-texte
-applications TAL pour langues africaines
5. Discussion
5.1 Apport principal
L’introduction de expl:subj pour le pronom redoublant permet de capturer une propriété typologique importante du tem.
5.2 Limites
-taille réduite du corpus
-couverture lexicale limitée
-traitement encore partiel des mutations verbales
5.3 Perspectives
-extension du corpus
-intégration audio (speech-to-text)
-amélioration des règles morphologiques
-entraînement de parseurs spécialisés
Conclusion
Ce travail propose le premier mini-treebank structuré pour le tem, conforme aux standards UD. Il met en évidence une stratégie syntaxique originale fondée sur le redoublement du sujet, et fournit une base solide pour le développement d’outils de TAL pour les langues africaines.
Mots-clés
Tem, Universal Dependencies, Treebank, langues africaines, syntaxe, redoublement du sujet, TAL