Hybride (en visio-conférence et dans la salle 720 Olympe de Gouge),
Présentation invitée : Beatriz Sánchez-Cárdenas, Universidad de Granada,
L’outil MarcoTAO : Cadres sémantiques et phraséologie multilingue de concepts spécialisés
Beatriz Sánchez-Cárdenas
Universidad de Granada
Notre travail s’inscrit dans la lignée du projet EcoLexiCon (https://ecolexicon.ugr.es), une ressource terminologique spécialisée dans les sciences environnementales (Faber et al., 2014; Faber et al., 2016). Dans cette communication, nous présentons le prototype de « MarcoTAO », une interface web qui regroupe plusieurs fonctionnalités pour l’analyse de concepts spécialisés dans des corpus multilingues. L’outil Web intègre un protocole d’analyse de corpus, un tagueur sémantique, un visualiseur des résultats et la possibilité d’exporter l’analyse dans différents formats. Il est destiné à des terminologues et à des linguistiques de corpus. Les utilisateurs pourront extraire, stocker, analyser et visualiser des informations relatives aux structures phraséologiques et conceptuelles de termes analysés dans plusieurs langues (espagnol, anglais, français). Les données issues de ces analyses permettront notamment d’enrichir les bases de données terminologiques, dont EcoLexicon, et en conséquence d’améliorer les ressources dont bénéficient les apprenants de traduction, les rédacteurs spécialisés ainsi que les traducteurs professionnels.
MarcoTAO exécute une série de scripts en Python pour extraire à partir des corpus spécialisés des structures argumentales sous forme de schémas lexicaux du type « nom-verbe-nom » (volcano-eject-lava) dans diverses langues. Les triplets sélectionnés sont manuellement annotés avec des étiquettes sémantiques. D’une part, les verbes sont classés selon leur sémantique en domaines lexicaux, tels que CHANGEMENT, ACTION ou EXISTENCE (Faber & Mairal 2012, 2021). D’autre part, les noms des arguments sont étiquetés en fonction de leur classe sémantique (par exemple, « flore » ou « catastrophe naturelle ») selon une typologie des noms conçue pour les sciences de l’environnement (Buendía 2013 ; Gil-Berrozpe et al 2018). Enfin, les arguments se voient attribuer un rôle thématique (par exemple, Agent, Thème, Résultat). Partant du principe que des modèles phraséologiques similaires révèlent une même structure conceptuelle et sémantique, les triplets annotés sont automatiquement regroupés, rassemblant les triplets qui partagent la même annotation. Ainsi, la structure conceptuelle du concept émerge. Ce processus peut être effectué sur plusieurs corpus comparables, ce qui permet d’établir des équivalences interlinguistiques sur la base de différentes dimensions conceptuelles activées par les termes (Sánchez-Cárdenas & Ramisch 2019).
En outre, les schémas lexicaux extraits de ces analyses renseignent sur la phraséologie, la combinatoire lexicale et la prosodie sémantique (Kübler et Volanschi 2012) des termes analysés.
Dans une prochaine étape du travail, une étude expérimentale aura pour but de déterminer dans quelle mesure les informations issues de MarcoTAO sur la combinatoire lexicale et la phraséologie spécialisée peuvent améliorer la qualité des traductions. L’étude comparera la qualité de divers types de traductions : (a) les traductions « traditionnelles » (groupe de contrôle) ; (b) les traductions faites avec l’outil EcoLexiCat enrichi avec les résultats de MarcoTAO (groupe expérimental 1); (c) les traductions automatiques neuronales (groupe expérimental 2) et ; (d) les traductions automatiques postéditées à l’aide des données linguistiques et conceptuelles issues de MarcoTAO (groupe expérimental 3). La typologie d’erreurs de traduction du projet MeLLANGE servira à mesurer la qualité des traductions.
Bibliographie
Buendía Castro, M. (2013) Phraseology in Specialized Language and its Representation in Environmental Knowledge Resources. PhD Thesis. Universidad de Granada, Granada, Spain.
Faber, P., et Usón, R. M. (2012). Constructing a lexicon of English verbs. In Constructing a Lexicon of English Verbs. De Gruyter Mouton.
Faber, P., León Araúz, P. & Reimerink, A. (2014) Representing environmental knowledge in EcoLexicon. In Languages for Specific Purposes in the Digital Era. Educational Linguistics, 19:267-301. Springer.
Faber, P., León-Araúz, P. & Reimerink, A. (2016) EcoLexicon: new features and challenges. In GLOBALEX 2016: Lexicographic Resources for Human Language Technology in conjunction with the 10th edition of the Language Resources and Evaluation Conference, Kernerman, I., Kosem Trojina, I., Krek, S. et Trap-Jensen, L. (eds), p. 73-80, Portorož.
Gil-Berrozpe, J.C., León-Araúz, P. et Faber, P. (2018) Subtypes of Hyponymy in the Environmental Domain: Entities and Processes. In Proceedings of the 10th International Conference on Terminology & Ontology: Theories and Applications (TOTh 2016), Roche, C.(ed), p. 39-54. Chambéry: Éditions de l’Université Savoie Mont Blanc.
Kübler, N., et Volanschi, A. (2012). Semantic Prosody and Specialised Translation, or How a Lexico Grammatical Theory of Language Can Help with Specialised Translation. Studies in Corpus Linguistics, al Boulton, S. Carter-Thomas, et E. Rowley-Jolivet (eds), 52, p. 103-34.
León-Araúz, P., Reimerink, A. et Faber, P. (2020) Translating environmental texts with EcoLexiCAT. In Translating and Communicating Environmental Cultures, edited by Ji, M. Routledge Studies in Empirical Translation and Multilingual Communication, p. 3-42. New York: Routledge.
León-Araúz, Pilar (2017) Term and Concept Variation in Specialized Knowledge Dynamics, P. Drouin, A. Francœur, J.Humbley et A. Picton (eds.) Multiple Perspectives on Terminological Variation, Amsterdam/ Philadelphia: John Benjamins, p. 213-258.
Mairal-Usón, R., et Faber, P. (2021). Rutas de acceso al léxico en un entorno lexicográfico. Revista de Lingüística y Lenguas Aplicadas, 16, p.63-79.
San Martín, A., Cabezas-García, M., Buendía-Castro, M., Sánchez-Cárdenas, B., León-Araúz, P., Reimerink, A. & Faber, P. (2020) Presente y futuro de la base de conocimiento terminológica EcoLexicon. Onomázein, 49:174-202. doi:10.7764/onomazein.49.09.
Sánchez Cárdenas, B. et Ramisch, C. (2019) Eliciting specialized frames from corpora using argument-structure extraction techniques. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 25(1), p. 1-31. John Benjamins.