IDEX SPECTRANS (2020-2022)

Projet émergence 2021 IDEX (22 000 Euros)

CORPUS SPECIALISÉS ET TRADUCTION NEURONALE

Specialised corpora and neural translation (SPECTRANS)

Coordinateurs

Ce projet pluridisciplinaire réunit des membres de plusieurs équipes de recherche rattachées à l’Université de Paris. Voici les trois coordinateurs des équipes impliquées:

PI: Nicolas Ballier (CLILLAC-ARP)
Mohamed Nadif (Centre Borelli)
Jean-Baptiste Yunès (IRIF)

Résumé

Ce projet se propose de mieux comprendre la traduction par réseaux de neurones, son fonctionnement, l’impact des structures linguistiques et ses conséquences pour le métier de traducteur. Outre sa dimension pluridisciplinaire, il met l’accent sur une analyse linguistique plus fine des propriétés textuelles. Il s’appuie sur une équipe pluridisciplinaire au sein de l’Université de Paris en faisant appel à des spécialistes de la statistique, du traitement automatique du langage, de l’informatique, ainsi qu’à des linguistes experts en langues de spécialité, en traduction scientifique et en traductologie outillée. Il se place dans une approche située, c’est-à-dire qu’il prend comme point de départ un besoin sociétal, ici, le besoin de traduire des articles scientifiques du français vers l’anglais et vice-versa. Le domaine choisi est celui de la médecine, dans lequel les deux sens de traduction sont nécessaires, à la fois pour diffuser la recherche et pour informer les médecins francophones. L’objectif est multiple : il s’agit à la fois de faire avancer la connaissance sur la traduction automatique neuronale (TAN) dont le fonctionnement reste opaque, même pour les informaticiens (Burlot & Yvon 2018), mais aussi d’améliorer les résultats de traduction en spécialisant un moteur sur la médecine, et enfin de modéliser les erreurs produites par le système dans une optique de formation à la post-édition pour des traducteurs ou des experts en médecine. Ce projet pilote cherche à mettre en place une méthodologie de spécialisation des moteurs de traduction, en vue de l’élargir à d’autres domaines en sciences exactes et en sciences humaines, répondant en cela à la nécessité de publier la science française en anglais soutenue par le MESRI, mais aussi de traduire des articles rédigés en anglais vers le français, pour mieux diffuser la science française au sein de la francophonie, besoin soutenu par la DGLFLF.

AXE 1 : Exploration de la boîte noire

En s’appuyant sur l’expertise de collègues du Centre Borelli sur les word embeddings et pour l’analyse des données textuelles biomédicales, cette partie de recherche fondamentale cherche à comprendre et à interpréter (Montavon et al. 2018) ce que fait le réseau de neurones : comment peut-on apprendre à traduire à partir des corpus d’entrées et des algorithmes ? L’objectif le plus ambitieux et le plus risqué est de contribuer à l’étude de l’impact de l’architecture des réseaux de neurones sur les performances de la TAN et de développer une approche béhavioriste des RNNs. Inspirée de l’analyse de la reconnaissance d’image, la méthodologie des « PatternAttribution » (Montavon et al. 2018, Poerner et al, 2018) cherche à interpréter les composantes internes du modèle.

AXE 2 : Corpus augmentés et spécialisés (deux cas d’étude pour les problématiques d’entrée)

Nous avons sélectionné deux types de corpus pour étudier les problématiques d’entrée : le corpus de traduction d’anglais médical Cochrane (enjeux des travaux de Chris Gledhill et de la thèse d’Hanna Martikainen (dir. N. Kübler) pour les traductions) et les « corpus augmentés » par annotation syntaxique. Livrable: Un moteur de traduction pilote en anglais médical: disposer d’un prototype qui permette de trancher sur la faisabilité de l’objectif ultime, entraîner un moteur spécifique sur l’anglais médical pour traduire PUBMED en français mieux que les moteurs commerciaux.

AXE 3 : Les corpus de tests et le statut de l’erreur de traduction (problématiques de sortie)

La dimension pluridisciplinaire du projet conduit à faire discuter des communautés où la définition de l’erreur n’est pas la même. La question théorique est notamment la caractérisation linguistique du changement de statut de l’erreur dans la traduction neuronale. Ne fonctionnant plus segment par segment comme dans les modèles statistiques, mais au niveau de la phrase, la TAN peut omettre des mots dans la traduction. La problématique théorique est celle du devenir des unités de traduction dans la TAN. Pour débusquer les cas d’omissions en TAN, nous procéderons par réalignement des traductions neuronales avec les traductions modèles en utilisant la technologie du Trameur (Zimina & Fleury 2018). Nous essaierons de dégager des propriétés récurrentes (notamment textométriques) des éléments omis pour améliorer les systèmes.

AXE 4. Impact sociétal de la traduction neuronale

Dans une dimension également sociétale, il s’agit de modéliser le changement qualitatif sur les phases de post-édition (opérations de révision des traductions automatiques), et plus généralement l’impact de la TAN sur les métiers et la société. La post-édition est devenue le lieu privilégié d’observation des erreurs de traduction neuronale. Nous chercherons à clarifier les nouvelles compétences dont auront besoin les utilisateurs de la TAN, tant chez les apprentis traducteurs, que chez les chercheurs disciplinaires. Il s’agit de développer une expertise métier sur ces technologies qui ont moins de six mois d’existence pour les derniers modèles implémentés.

LIVRABLES

scripts ayant servi à la soumission pour l’atelier sur les ressources terminologiques WMT21
scripts pour l’analyse automatique de la qualité des traductions à partir des principaux scores
premiers modèles pour la traduction de l’anglais bio-médical

EVENEMENTS

présentation au laboratoire CLILLAC-ARP (27 septembre 2022)
participation au colloque TRALOGY III

PUBLICATIONS

tbc

À lire aussi

SILES – Séminaire International sur la Langue Espagnole (2024-2025)

Clillac-Arp, Séminaire

SILES est un groupe de travail, d’échange et de recherche autour de l’espagnol animé par l’équipe de linguistes hispanistes de l’UFR EILA de l’Université Paris Cité, rattaché à l’équipe de recherche CLILLAC-ARP. Ce séminaire se donne pour but de réunir périodiquement...

Politiques linguistiques en Europe – Séminaire de Recherche, 2009-2010

Archives Politiques linguistiques

Logos de l'Observatoire Européen du plurilinguisme et de la Délégation générale à la langue française et aux langues de France (DGLFLF)2009-2010 Le professeur José Carlos Herreras anime régulièrement un séminaire de recherche intitulé Les politiques linguistiques en...

Politiques linguistiques en Europe – Séminaire de Recherche, 2010-2011

Archives Politiques linguistiques

Logos de l'Observatoire Européen du plurilinguisme et de la Délégation générale à la langue française et aux langues de France (DGLFLF)2010-2011 Programme Les thèmes proposés illustrent les politiques linguistiques menées, en fonction de leur propre situation, dans un...

Politiques linguistiques en Europe – Séminaire de Recherche, 2011-2012

Archives Politiques linguistiques

Logos de l'Observatoire Européen du plurilinguisme et de la Délégation générale à la langue française et aux langues de France (DGLFLF)2011-2012 Programme Les thèmes proposés illustrent les politiques linguistiques menées, en fonction de leur propre situation, dans un...