Données et outils
Données et corpus créés et diffusés par ALTAE
Base de données ARTES
Concordanciers IMS-CWB & SketchEngine
Outils d’annotation BRAT, INCEPTION et STUDIO LABEL
Application OCTAVES
Données et outils iTRAMEUR
Données et corpus extérieurs mis à disposition par ALTAE
American National Corpus
British National Corpus
BYU Corpora
CELEX Lexical Database
ISLE Speech Corpus
MultiLingual Corpora for Cooperation

Pour tout renseignement concernant les ressources du laboratoire, contactez-nous par courriel.
Données et corpus créés et diffusés par ALTAE
Cette section liste les ressources constituées et diffusées (au moins en partie) par des membres d’ALTAE. Sauf mention contraire, ces ressources sont diffusées sous licence libre.
Base de données ARTES
La base ARTES a été créée en 2010 dans le cadre du projet du même nom, projet ARTES (Aide à la Rédaction de TExtes Scientifiques) par l’équipe Enjeux actuels de la Traduction et Communication des Cultures en Contact (ET3C). Elle accueille les données terminologiques et phraséologiques collectées, structurées et analysées dans le cadre de projets terminologiques réalisés par les étudiants du Master Traduction Interprétation de l’UFR EILA (parcours ILTS et LSCT). Toutes les données dans ARTES sont collectées dans les corpus comparables récents construits ad hoc si bien que la base accueille les données sur les domaines émergents et les néologismes souvent absents d’autres ressources du même type. Les données ARTES incluent les termes, les néologismes, les variants terminologiques et autres types de concurrents, les collocations, les définitions, les contextes riches de connaissances, les termes liés sémantiquement, les équivalents, etc. organisées sous forme de fiche terminologique ou d’entrée de dictionnaire. La base sert ainsi à la fois à l’enseignement de la terminologie et de la phraséologie pour la traduction spécialisée, ainsi qu’à la recherche sur la structuration et l’analyse de ce type de données. Elle permettent également l’extraction des données parallèles ou bilingues utiles pour l’affinage de Grands Modèles de Langue et des modèles de Traduction Automatique Neuronale (TAN) hyperspécialisée.
Les données ARTES sont en libre accès et disponibles sur l’interface de consultation de la base ARTES.
Référente : Mojca Pecman
Publication significative : Pecman, Mojca and Natalie Kübler 2011. ARTES: an online lexical database for research and teaching in specialized translation and communication. Proceedings from International Workshop on Lexical Resources (WoLeR) 2011 at ESSLLI. August 1-5, 2011 – Ljubljana, Slovenia, 87-93.
Concordanciers IMS Corpus Workbench et SketchEngine et corpus monolingues et bilingues (comparables, parallèles)
L’équipe Enjeux actuels de la Traduction et Communication des Cultures en Contact (ET3C) crée et met à disposition des membres d’ALTAE de nombreux corpus.
Elle utilise notamment IMS Workbench qui est une application d’interrogation de corpus ou concordancier Open Source (https://cwb.sourceforge.io) installée sur notre serveur : https://cwb.app.univ-paris-diderot.fr. IMS Workbench permet d’explorer les corpus et de les stocker. Nous l’utilisons depuis 2007 pour stocker notamment les corpus spécialisés, monolingues ou comparables, réalisés par les chercheurs de l’équipe ET3C et les étudiants et doctorants de l’UFR EILA travaillant sur les discours spécialisés et la traduction spécialisée. On y trouve, par exemple, le corpus Géoscience (anglais-français) compilé par les étudiants en Master 1 Traduction et Interprétation de l’UFR EILA. L’exploration de ces données textuelles permet de mener des recherches sur les problèmes de traduction des discours spécialisés. L’équipe ET3C crée également de nombreux corpus dans Sketch Engine. Sketch Engine permet de stocker les corpus monolingues ou – comparables, ainsi que les corpus parallèles.
L’accès aux données textuelles stockées dans IMS Workbench et Sketch Engine créés par les chercheurs d’ALTAE est réservé aux membres d’ALTAE et aux étudiants de l’UFR EILA dans la mesure où il s’agit de collections de textes qui ne sont pas libres de droit.
Abonnement et financement : L’équipe ET3C s’est aussi occupé à garantir l’accès institutionnel à Sketch Engine pour l’ensemble de l’université Paris Cité depuis 2018. Pendant quatre ans, l’accès à Sketch Engine était offert dans le cadre du projet Elexis, et gratuit pour tous. Depuis 1er avril 2022, ALTAE (ex CLILLAC-ARP) a pris en charge l’abonnement pour l’ensemble de l’UPCité. En 2024, l’abonnement a été pris en charge par le Professeur Claude Grasland du Département de Géographie d’UPCité et du CNRS UMR 8504 Géographie-Cité). En 2025, ALTAE vient d’obtenir une participation de la Direction générale déléguée des bibliothèques et musées (DGDBM) de l’UPCité pour la prise en charge de l’abonnement.
Référente : Alexandra Mestivier
Publication significative : Natalie Kübler, Alexandra Mestivier, Mojca Pecman 2022. Using comparable corpora for translating and post-editing complex noun phrases in specialized texts. Syviane Granger & Marie-Aude Lefer. Extending the Scope of Corpus-Based translation Studies, Bloomsbury Publishing, p. 237-266, Bloomsbury Advances in Translation, 9781350143258. ⟨hal-03641972⟩
Outils d’annotation BRAT, INCEPTION et STUDIO LABEL
Le premier outil d’annotation utilisé et installé sur notre serveur est BRAT : https://brat.app.univ-paris-diderot.fr/#. En 2024, l’équipe a également installé sur notre serveur l’outil d’annotation de corpus INCEPTION : https://inception.u-paris.fr et en 2025 la plateforme d’annotation destinée à l’apprentissage automatique LABEL STUDIO : https://label-studio.u-pariscite.fr afin d’explorer les possibilités et les fonctionnalités avancées offertes par ces outils.
Référente : Natalie Kübler
Publication significative : Natalie Kübler, Alexandra Mestivier, Mojca Pecman 2018. Teaching specialised translation through corpus linguistics: quality assessment and methodology evaluation by experimental approach. Meta : journal des traducteurs, 63 (3), pp. 806-824. ⟨hal-02495232⟩
Application OCTAVES
L’application Outil de Collecte des Traductions des Apprenants en Vue de leur Exploration Scientifique (OCTAVES) a été développée en 2021 dans le cadre du projet du même nom: projet OCTAVES. C’est une application web permettant d’enrichir une base de données d’unités de traduction (phrases ou paragraphes) alignées. Les données collectées dans OCTAVES se présentent sous forme de collections de corpus parallèle, chaque collection comportant un ou plusieurs textes sources et une ou plusieurs traductions de ces textes originaux par les apprenants. OCTAVES est conçue pour permettre également de stocker les différentes versions des traductions des mêmes textes, réalisées à la suite des feedbacks des enseignants, après corrections. Les données sur OCTAVES permettent de soutenir les recherches en traduction spécialisée et de fournir des données pour l’entrainement des systèmes de Traduction Automatique Neuronale hyperspécialisée. Ce projet et son application sont ainsi liés aux objectifs scientifiques des membres d’ALTAE portant sur le développement de Grands Modèles de Langue, l’entrainement de l’IA pour traiter les discours spécialisés et l’acquisition des compétences en manipulation de modèles de traduction hyperspécialisée.
L’accès aux corpus parallèles stockées dans OCTAVES est réservé aux membres d’ALTAE dans la mesure où il s’agit de collections de textes originaux et de leurs traductions qui ne sont pas libres de droit. Cependant la constitution de ce type de données, c’est-à-dire l’enrichissement de la base de données OCTAVES, et leur exploitation pour les besoins de recherche est possible sur demande, par mail, comme indiqué dans le mode d’emploi de l’application en ligne.
Référente : Alexandra Mestivier
Données et outils iTRAMEUR
Plateforme d’analyse textométrique de données labélisée par UPCité : https://plateformes.u-paris.fr/itrameur-outils-danalyse-textometrique-de-donnees. ITRAMEUR est un ensemble d’outils et ressources en ligne (https://itrameur.clillac-arp.univ-paris-diderot.fr) comportant plusieurs fonctionnalités de l’analyse automatique de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources annotées (treebanks monolingues/multilingues) ou des alignements.
Données et corpus extérieurs mis à disposition par ALTAE
Cette section liste les ressources qui ne sont pas diffusées en open-access et dont une licence d’utilisation a été financée par ALTAE. Sauf mention contraire, ces ressources sont sous licence de site “Laboratoire”, ce qui signifie qu’elles ne peuvent être accessibles qu’aux seuls membres d’ALTAE et ce à des fins de recherche uniquement.
American National Corpus
Première édition du ANC, disponible sous plusieurs formats (XML, texte brut, “stand-off”). Au total, le corpus compte environ 3 millions de mots pour la partie oral et 8 millions de mots pour la partie écrit. À noter qu’aujourd’hui une version mise à jour (près de 15 millions de mots) est distribuée sous licence libre sur le site de l’ANC.
British National Corpus
La version CD-ROM du BNC (World Edition, 2000) est disponible, sur demande, pour les membres du laboratoires (licence de site).
BYU Corpora
ALTAE a financé l’achat d’une licence de site permettant aux membres du laboratoire d’accéder aux textes intégraux des corpus COCA (Corpus of Contemporary American English), COHA (Corpus of Historical American English) et GloWbE (Global Web-Based English). À noter que ces corpus sont interrogeables en ligne à cette adresse : http://corpus.byu.edu/
CELEX Lexical Database
La deuxième version de la base de données CELEX se compose de bases de données lexicales pour l’anglais, l’allemand et le néerlandais. La base de données CELEX est accessible à tout membre de l’université Paris Cité (licence de site “université”).
ISLE Speech Corpus
Le corpus ISLE contient près de 20 minutes d’enregistrements de productions de 46 locuteurs d’un niveau intermédiaire d’apprentissage de l’anglais. Parmi ceux-ci, 23 sont des locuteurs natifs de l’allemand et 23 sont locuteurs natifs de l’italien. Chaque locuteur a été enregistré dans différents contextes : lecture de phrases simples, usage de paires minimales et réponses à des questions à choix multiples. La licence a été acquise auprès de l’ELDA (Agence pour l’Évaluation et la Distribution de Ressources Linguistiques). Le corpus est accessible à tout membre de l’université Paris Cité (licence de site “université”).
MultiLingual Corpora for Cooperation
Les CD-ROM du corpus MLCC (MultiLingual Corpora for Cooperation – Polylingual Document Collection & Multilingual Parallel Corpus) sont disponibles sur demande.