Axe transversal : Politique de la donnée et interopérabilité des corpus écrits et oraux

Responsable : Pr. Nicolas Ballier

L’objectif est de construire un pôle de référence unique, à l’échelle de nos sections de CNU respectives, pour le traitement et l’analyse statistique des données linguistiques. L’axe se réoriente vers les thématiques suivantes :

  • Interopérabilité des corpus écrits et oraux : annotation des structures syntaxiques des corpus oraux
  • Algorithmique exploratoire
  • Modélisation des données linguistiques
  • Approche pluridisciplinaire des données linguistiques (approche science des données)
  • Politique de la donnée et valorisation des corpus et jeux de données

L’axe entend mener une politique de formation soutenue auprès des mastérants et des doctorants de l’unité. Il s’agit de poursuivre une politique de formation interne par invitations de spécialistes en linguistique quantitative (J. Nerbonne, H. Baayen, après S. Gries) computationnelle (P. Niyogi, S. Seyfarth) & phonétique (J. Harrington). La culture de R comme environnement de travail (pré-traitement des données, intégrateurs de chaînes de traitement, visualisation des données et traitements statistiques (Ballier 2017) sera étendue. En outre, des stages seront proposés en master d’informatique pour accélérer la création de routines de traitements des corpus et éventuellement pour susciter des projets doctoraux interdisciplinaires entre linguistique et informatique.