Le projet NeuroViz a pour objectif de mieux comprendre le fonctionnement des réseaux de neurones au cœur des systèmes de traduction automatique de l’état de l’art. Associant deux laboratoire d’informatique et deux laboratoire de linguistique, ce projet propose une approche originale reposant sur l’utilisation de connaissances en traductologie pour analyser de manière qualitative les effets de structures linguistiques et des représentations neuronales sur la qualité des traductions prédites et expliquer, dans une certaine mesure, le « raisonnement » permettant d’obtenir celles-ci.

Financement

Le projet NeuroVdes sondes linguistiques, comme celles conçues par [Linzen et al., 2016], qui définissent des tâches de classification permettant de savoir si les représentations construites automatiquement par les réseaux de neurones sont capables de prédire certaines propriétés linguistiques. À notre connaissance, ce type de méthodes n’a pas encore été utilisé dans un contexte multilingue ou pour des couples de langues impliquant le françaiz est soutenu par la Région Ile-de-France dans le cadre d’un financement DIM RFSI 2020.

Porteurs

Résumé

Les systèmes de traduction neuronaux ont permis d’améliorer significativement la qualité de la traduction automatique (TA) et celle-ci est de plus en plus utilisée. La TA continue toutefois d’être entachée d’erreurs et de contresens pouvant être lourds de conséquences comme lorsque le nom du président chinois a été transformé en « Mr Shithole » dans la traduction automatique d’une déclaration officielle du porte-parole du gouvernement birman. Nous pensons qu’une compréhension fine du fonctionnement d’un système de traduction neuronal (ici, l’absence de détection d’une entité nommée) est nécessaire pour expliquer les prédictions de celui-ci et permettre d’améliorer encore la qualité de la TA en évitant ce type d’erreur. Nous proposons pour cela une approche originale consistant à étudier le comportement des systèmes de TA sur des exemples choisis spécifiquement selon certaines propriétés linguistiques. Nous nous appuierons pour cela sur trois types de techniques :

  • des sondes linguistiques, comme celles conçues par [Linzen et al., 2016], qui définissent des tâches de classification permettant de savoir si les représentations construites automatiquement par les réseaux de neurones sont capables de prédire certaines propriétés linguistiques. À notre connaissance, ce type de méthodes n’a pas encore été utilisé dans un contexte multilingue ou pour des couples de langues impliquant le français ;
  • des annotations automatiques de textes : nous utiliserons des métriques de complexité lexicale, de lisibilité, de complexité syntaxique [Sousa et al. 2020] et des annotations sémantiques pour mieux contrôler les types de pertes dans la traduction neuronale ;
  • des techniques de visualisation des différents niveaux d’activation comme celle mises en œuvre par [Montavon et al., 2018] pour la classification d’images. En s’appuyant sur des outils comme seq2seq-Vis ou NeuroX, nous essayerons en comparant les activations des neurones en fonction des propriétés linguistiques des énoncés à traduire, de comprendre comment s’effectue la division du travail dans la traduction neuronale et de dresser une cartographie de l’activation des réseaux de neurones en fonction des propriétés linguistique et des types de tâches.

À lire aussi

Idex VoCSI-Telly (2021-2022)

Idex VoCSI-Telly (2021-2022)

The VoCSI-Telly Project Keywords: forensic voice comparison, TV series, phonetics, film studiesFunding The VoCSI-Telly project is funded by funded by Idex Université de Paris PI Emmanuel Ferragne Clillac-Arp Margaux Cecchini Anne Guyot-Talbot LARCA Martine Beugnet...

Idex SEPALE (2021-2022)

Idex SEPALE (2021-2022)

“Pedagogical innovation” project SEPALEFunding The SEPALE project is funded by funded by Idex Université de Paris Participants Core team Emmanuel Ferragne Anne Guyot-Talbot Sylvain Navarro Other members Hanane Amrane Nada Azizi Hannah King Alice Léger Francesca...

PHC Procope (2019-2021)

PHC Procope (2019-2021)

Project Procope Surprise Questions from a Comparative PerspectiveFunding Programme Hubert Curien, programme n°42412PC, 7000€ Participants Agnès Celle Andreas Trotzke (U. of Konstanz) Resume The aim of this linguistic project is to break new ground in the treatment of...

PHC Procope (2019-2021)

PHC Parrot (2019-2021)

Project Parrot Surprise Questions from a Comparative PerspectiveFunding Programme Hubert Curien, programme n° 42231NG, 6500€ Participants Agnès Celle Anu Treikelder (U. of Tartu) Resume The aim of this linguistic project is to break new ground in the treatment of...