Près de 70 ans après l’expérience de Georgetown, MaTOS (”Machine Translation for Open Science”) revisite la traduction automatique de documents scientifiques en texte intégral afin de faciliter et d’ouvrir l’accès à la connaissance scientifique. MaTOS est soutenu par l’Agence Nationale de la Recherche dans le cadre de l’AAPG 2022 – CES 23 (Intelligence artificielle et science des données).

Participants par équipe

  • Sorbonne-Université – ISIR – MLIA : F. Yvon
  • Inria Paris / ALMAnaCH : R. Bawden, E. de la Clergerie, L. Romary
  • Université Paris-Cité / ALTAE : N. Kübler, A. Mestivier, L. Zhu, M. Bénard
  • CNRS / INIST : J.F Nominé, M. Huguin

Résumé

Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la TA de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.

Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la TA n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. Nous souhaitons à la fois tirer profit des résultats de ces travaux, mais également y contribuer de multiples manières: (a) en développant de nouvelles ressources ouvertes pour la TA spécialisée; (b) en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ; (d) en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches. Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et connaissances scientifiques.

À lire aussi

PARAAF

PARAAF

PARAAF: Perception de l'Anglais et Reconnaissance Automatique d'Accents à la Fac Projet (2024-2025) financé dans le cadre de l'AAP Formation SH de la Faculté Sociétés et Humanités.Objectifs Caractériser l'accent anglais des apprenants francophones à travers :...

ANR GLITCH

ANR GLITCH

Projet ANR JCJC (2024-2027) porté par Maud Pélissier.Résumé Deux techniques d’apprentissage sont particulièrement efficaces pour la mémorisation : l’effort de rappel (essayer de se rappeler d’un élément plutôt que simplement le relire) et l’apprentissage espacé...

Plateforme PNS-UP

Plateforme PNS-UP

Projet de partenariat SYSTRAN / Université Paris Cité Porteur Maria Zimina-Poirot, URP 3967 CLILLAC-ARP Résumé Déploiement du serveur de traduction qui permet d’utiliser des modèles de traduction automatique spécialisée pour les projets de traduction, post-édition et...