2026-03-18

GraphPhon : vers un corpus linguistique structuré pour la langue tem

Dans le cadre du développement de la plateforme GraphPhon, nous poursuivons activement la structuration d’un corpus linguistique dédié à la langue tem (Kotokoli), avec un objectif clair : construire des bases solides pour les technologies de traitement automatique du langage (TAL). Un travail d’annotation linguistique approfondi Nous menons actuellement une phase intensive d’annotation linguistique, visant à décrire précisément les unités de la langue tem selon des standards internationaux, notamment le format CoNLL-U utilisé dans les projets Universal Dependencies. Chaque phrase est analysée selon plusieurs dimensions : Graphème : forme écrite du mot Phonème : représentation phonétique Lemme : forme de base Catégorie grammaticale (POS) Traits morphologiques (FEATS) Relations syntaxiques (HEAD / DEPREL) Ce travail permet de transformer des phrases brutes en données structurées exploitables par des modèles d’intelligence artificielle. Intégration du moteur de conjugaison Une avancée majeure de nos travaux réside dans l’intégration directe de notre moteur de conjugaison tem au processus d’annotation. Ce moteur génère automatiquement : des formes verbales selon la personne, le mode et l’aspect des structures morphologiques détaillées (radicaux, préfixes, mutations) Ces données sont ensuite injectées dans notre base de phrases, où elles servent à : accélérer l’annotation améliorer la cohérence linguistique enrichir le corpus avec des formes grammaticalement contrôlées Nettoyage et normalisation du dataset Après une première phase d’annotation, nous avons engagé un processus rigoureux de nettoyage des données. Ce travail consiste à : éliminer les doublons d’annotation corriger les incohérences syntaxiques normaliser les traits morphologiques selon les standards UD séparer correctement les unités linguistiques (notamment les formes fusionnées) isoler les phrases incomplètes pour révision L’objectif est de constituer un sous-corpus fiable, prêt à être utilisé pour l’entraînement de modèles linguistiques. Vers un mini-treebank tem Les travaux en cours permettent progressivement de construire un mini-treebank tem, c’est-à-dire un corpus annoté syntaxiquement de haute qualité. Ce type de ressource est essentiel pour : la traduction automatique la reconnaissance vocale la synthèse vocale les outils pédagogiques numériques Une démarche progressive et maîtrisée Plutôt que de produire rapidement un grand volume de données approximatives, nous privilégions une approche rigoureuse : construire un noyau de données propre, cohérent et extensible Chaque étape (annotation, validation, nettoyage, structuration) est pensée pour garantir la qualité du corpus à long terme. Perspectives Les prochaines étapes de nos travaux incluent : l’amélioration des règles de segmentation morphologique l’enrichissement des traits linguistiques l’extension du corpus à des phrases plus complexes l’intégration future d’un analyseur syntaxique plus avancé Conclusion À travers ces travaux, GraphPhon pose les bases d’une infrastructure linguistique moderne pour la langue tem, contribuant ainsi à son intégration dans l’écosystème numérique et à sa valorisation dans les technologies de demain.

𝕏 Partager Facebook