Près de 70 ans après l’expérience de Georgetown, MaTOS (”Machine Translation for Open Science”) revisite la traduction automatique de documents scientifiques en texte intégral afin de faciliter et d’ouvrir l’accès à la connaissance scientifique. MaTOS est soutenu par l’Agence Nationale de la Recherche dans le cadre de l’AAPG 2022 – CES 23 (Intelligence artificielle et science des données).
Participants par équipe
- Sorbonne-Université – ISIR – MLIA : F. Yvon
- Inria Paris / ALMAnaCH : R. Bawden, E. de la Clergerie, L. Romary
- Université Paris-Cité / CLILLAC-ARP : N. Kübler, A. Mestivier, L. Zhu, M. Bénard
- CNRS / INIST : J.F Nominé, M. Huguin
Résumé
Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la TA de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.
Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la TA n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. Nous souhaitons à la fois tirer profit des résultats de ces travaux, mais également y contribuer de multiples manières: (a) en développant de nouvelles ressources ouvertes pour la TA spécialisée; (b) en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ; (d) en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches. Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et connaissances scientifiques.
À lire aussi
Frontière entre Géosciences et Langues de spécialité (2004-présent)
Projet transversal à CLILLAC-ARP et l’Institut de Physique du globe de Paris (IPGP) visant à explorer comment les corpus spécialisés et les échanges avec les experts peuvent aider les apprenants en traduction à s'approprier les connaissances des experts, à mener les...
IDEX REMEDLANG (2021-2023)
« Évaluation d’un dispositif de remédiation anglaise et espagnole dans le but de favoriser l’autonomie langagière et l’autonomie d’apprentissage au niveau L1 en LEA » Projet IDEX de type « Emergence en Recherche », 2021-2023Coordination du projet Justine Paris Ismael...
CarDiBioMed (2022-2024)
Caractérisation du discours scientifique dans le domaine biomédical (CarDiBioMed)Projet IDEX « Émergence en Recherche », Campagne 2021. Membres du projets Université Paris Cité : C. Hamilton, S. Bottani, L. Zhu, C. Valdez, N. Kübler, A. Mestivier, N. Ballier...
Plateforme PNS-UP
Projet de partenariat SYSTRAN / Université Paris Cité Porteur Maria Zimina-Poirot, URP 3967 CLILLAC-ARP Résumé Déploiement du serveur de traduction qui permet d’utiliser des modèles de traduction automatique spécialisée pour les projets de traduction, post-édition et...