← Retour aux actualités
2026-03-18
GraphPhon : vers un corpus linguistique structuré pour la langue tem
Dans le cadre du développement de la plateforme GraphPhon, nous poursuivons activement la structuration d’un corpus linguistique dédié à la langue tem (Kotokoli), avec un objectif clair : construire des bases solides pour les technologies de traitement automatique du langage (TAL).
Un travail d’annotation linguistique approfondi
Nous menons actuellement une phase intensive d’annotation linguistique, visant à décrire précisément les unités de la langue tem selon des standards internationaux, notamment le format CoNLL-U utilisé dans les projets Universal Dependencies.
Chaque phrase est analysée selon plusieurs dimensions :
Graphème : forme écrite du mot
Phonème : représentation phonétique
Lemme : forme de base
Catégorie grammaticale (POS)
Traits morphologiques (FEATS)
Relations syntaxiques (HEAD / DEPREL)
Ce travail permet de transformer des phrases brutes en données structurées exploitables par des modèles d’intelligence artificielle.
Intégration du moteur de conjugaison
Une avancée majeure de nos travaux réside dans l’intégration directe de notre moteur de conjugaison tem au processus d’annotation.
Ce moteur génère automatiquement :
des formes verbales selon la personne, le mode et l’aspect
des structures morphologiques détaillées (radicaux, préfixes, mutations)
Ces données sont ensuite injectées dans notre base de phrases, où elles servent à :
accélérer l’annotation
améliorer la cohérence linguistique
enrichir le corpus avec des formes grammaticalement contrôlées
Nettoyage et normalisation du dataset
Après une première phase d’annotation, nous avons engagé un processus rigoureux de nettoyage des données.
Ce travail consiste à :
éliminer les doublons d’annotation
corriger les incohérences syntaxiques
normaliser les traits morphologiques selon les standards UD
séparer correctement les unités linguistiques (notamment les formes fusionnées)
isoler les phrases incomplètes pour révision
L’objectif est de constituer un sous-corpus fiable, prêt à être utilisé pour l’entraînement de modèles linguistiques.
Vers un mini-treebank tem
Les travaux en cours permettent progressivement de construire un mini-treebank tem, c’est-à-dire un corpus annoté syntaxiquement de haute qualité.
Ce type de ressource est essentiel pour :
la traduction automatique
la reconnaissance vocale
la synthèse vocale
les outils pédagogiques numériques
Une démarche progressive et maîtrisée
Plutôt que de produire rapidement un grand volume de données approximatives, nous privilégions une approche rigoureuse :
construire un noyau de données propre, cohérent et extensible
Chaque étape (annotation, validation, nettoyage, structuration) est pensée pour garantir la qualité du corpus à long terme.
Perspectives
Les prochaines étapes de nos travaux incluent :
l’amélioration des règles de segmentation morphologique
l’enrichissement des traits linguistiques
l’extension du corpus à des phrases plus complexes
l’intégration future d’un analyseur syntaxique plus avancé
Conclusion
À travers ces travaux, GraphPhon pose les bases d’une infrastructure linguistique moderne pour la langue tem, contribuant ainsi à son intégration dans l’écosystème numérique et à sa valorisation dans les technologies de demain.