💬

Forum

Discutez avec d'autres membres de la communauté sur des sujets linguistiques.

Accéder au forum

🤝

Bénévolat

Contribuez en ajoutant des mots, des traductions ou des enregistrements audio.

S'inscrire Comment contribuer ? Contribuer Voir les tâches Tableau de bord

📧

Contact

Une question ou une suggestion ? N'hésitez pas à nous contacter.

Nous écrire

⭐ Volontaires en vedette

Merci à nos contributeurs inscrits — rejoignez-les ! Comment contribuer ? →

OURO

Contributeur

testuser

Contributeur

wrongpass

Contributeur

logintest

Contributeur

duplicate

Contributeur

newuser

Contributeur

test_user

Contributeur

bob

Contributeur

ridoineeladmin

Contributeur

kokou

Contributeur

Rejoignez-nous

Inscrivez-vous pour apparaître ici et contribuer

S'inscrire

🎯 Comment contribuer ?

L'inscription est obligatoire pour contribuer. Chaque contributeur doit s'enregistrer gratuitement.

Créez un compte

Inscrivez-vous gratuitement pour accéder à toutes les fonctionnalités.

S'inscrire

Ajoutez du contenu

Mots, traductions, prononciations... Toute contribution compte !

Contribuer

Gagnez des badges

Progressez et débloquez des récompenses pour vos contributions.

Tableau de bord

S'inscrire gratuitement Contribuer

Postes bénévoles et opportunités pour rejoindre l'équipe GraphPhon.

Aucune annonce active pour le moment. Inscrivez-vous pour être informé des prochaines opportunités.

Les dernières nouveautés et activités de la plateforme GraphPhon.

2026-03-18

GraphPhon : vers un corpus linguistique structuré pour la langue tem

🔗 Lien

Dans le cadre du développement de la plateforme GraphPhon, nous poursuivons activement la structuration d’un corpus linguistique dédié à la langue tem (Kotokoli), avec un objectif clair : construire des bases solides pour les technologies de traitement automatique du langage (TAL). Un travail d’annotation linguistique approfondi Nous menons actuellement une phase intensive d’annotation linguistique, visant à décrire précisément les unités de la langue tem selon des standards internationaux, notamment le format CoNLL-U utilisé dans les projets Universal Dependencies. Chaque phrase est analysée selon plusieurs dimensions : Graphème : forme écrite du mot Phonème : représentation phonétique Lemme : forme de base Catégorie grammaticale (POS) Traits morphologiques (FEATS) Relations syntaxiques (HEAD / DEPREL) Ce travail permet de transformer des phrases brutes en données structurées exploitables par des modèles d’intelligence artificielle. Intégration du moteur de conjugaison Une avancée majeure de nos travaux réside dans l’intégration directe de notre moteur de conjugaison tem au processus d’annotation. Ce moteur génère automatiquement : des formes verbales selon la personne, le mode et l’aspect des structures morphologiques détaillées (radicaux, préfixes, mutations) Ces données sont ensuite injectées dans notre base de phrases, où elles servent à : accélérer l’annotation améliorer la cohérence linguistique enrichir le corpus avec des formes grammaticalement contrôlées Nettoyage et normalisation du dataset Après une première phase d’annotation, nous avons engagé un processus rigoureux de nettoyage des données. Ce travail consiste à : éliminer les doublons d’annotation corriger les incohérences syntaxiques normaliser les traits morphologiques selon les standards UD séparer correctement les unités linguistiques (notamment les formes fusionnées) isoler les phrases incomplètes pour révision L’objectif est de constituer un sous-corpus fiable, prêt à être utilisé pour l’entraînement de modèles linguistiques. Vers un mini-treebank tem Les travaux en cours permettent progressivement de construire un mini-treebank tem, c’est-à-dire un corpus annoté syntaxiquement de haute qualité. Ce type de ressource est essentiel pour : la traduction automatique la reconnaissance vocale la synthèse vocale les outils pédagogiques numériques Une démarche progressive et maîtrisée Plutôt que de produire rapidement un grand volume de données approximatives, nous privilégions une approche rigoureuse : construire un noyau de données propre, cohérent et extensible Chaque étape (annotation, validation, nettoyage, structuration) est pensée pour garantir la qualité du corpus à long terme. Perspectives Les prochaines étapes de nos travaux incluent : l’amélioration des règles de segmentation morphologique l’enrichissement des traits linguistiques l’extension du corpus à des phrases plus complexes l’intégration future d’un analyseur syntaxique plus avancé Conclusion À travers ces travaux, GraphPhon pose les bases d’une infrastructure linguistique moderne pour la langue tem, contribuant ainsi à son intégration dans l’écosystème numérique et à sa valorisation dans les technologies de demain.

📄 Articles scientifiques

Publications et travaux de recherche sur la langue Tem (format LaTeX). Cliquez sur une catégorie pour afficher les articles.

2026-03-18

Vers un treebank minimal pour le Tem : modélisation syntaxique du redoublement du sujet dans une langue gur

OURO-BANG'NA Wahabou

Lire 📥 LaTeX

Cet article présente la construction d’un mini-treebank pour la langue tem (Gur, Togo), dans le cadre du projet GraphPhon. Le corpus, annoté au format Universal Dependencies (UD), met en évidence une propriété syntaxique centrale du tem : l’obligation du pronom sujet, y compris en présence d’un sujet lexical explicite. Nous proposons une modélisation du redoublement du sujet à travers la relation expl:subj, tout en conservant le nom comme nsubj. Le dataset comprend 28 phrases validées et 5 phrases en cours de révision. Cette contribution constitue une première ressource structurée pour le traitement automatique du tem et ouvre la voie à des applications en annotation, parsing et reconnaissance vocale.

Communauté & Bénévolat

Forum

Bénévolat

Contact

⭐ Volontaires en vedette

🎯 Comment contribuer ?

Créez un compte

Ajoutez du contenu

Gagnez des badges

📢 Annonces de recrutement 0

📰 Actualités & Activités 1 GraphPhon : vers un corpus linguistique structuré pour la langue tem — Dans le cadre du développement de la plateforme GraphPhon, nous poursuivons activement la structuration d’un corpus ling…

📄 Articles scientifiques

Autres 1 Vers un treebank minimal pour le Tem : modélisation syntaxique du redoublement du sujet dans une langue gur — Cet article présente la construction d’un mini-treebank pour la langue tem (Gur, Togo), dans le cadre du projet GraphPho…