Ressources

Pour les besoins de ses recherches, le Clillac-Arp utilise de nombreux corpus de données. Les chercheurs du laboratoire participent également à leur enrichissement.

Sketch Engine

Le CLILLAC-ARP a financé pour l’année 2022-2023 la licence Sketch Engine pour l’ensemble de l’Université Paris Cité.

Pour tout renseignement concernant les ressources du laboratoire, contacter Loïc Liégeois.

Données et corpus créés et diffusés par le CLILLAC-ARP

Cette section liste les ressources constituées et diffusées (au moins en partie) par des membres du CLILLAC-ARP. Sauf mention contraire, ces ressources sont diffusées sous licence libre.

Données EMPHILINE

Les données collectées, structurées et analysées par l’équipe du CLILLAC-ARP dans le cadre du projet ANR EMPHILINE (Emotion(s), cognition, comportement) sont disponibles sur l’espace Nakalona du projet. L’ensemble des données est en accès libre sous licence CC BY-NC-SA 3.0 : https://up7-anr_emphiline.nakalona.fr/about

Corpus transversal du projet Diderot-LONGDALE

Grâce à l’aide financière du consortium CORLI, le corpus transversal du projet Diderot-LONGDALE est en cours de structuration finale (relecture des transcriptions, conversion au format CHAT, alignement des transcriptions avec les fichiers audio). Une fois l’ensemble de ces traitements effectués, les données seront déposées sur la plateforme ORTOLANG.

Données et corpus extérieurs mis à disposition par le CLILLAC-ARP

Cette section liste les ressources qui ne sont pas diffusées en open-access et dont une licence d’utilisation a été financée par le CLILLAC-ARP. Sauf mention contraire, ces ressources sont sous licence de site “Laboratoire”, ce qui signifie qu’elles ne peuvent être accessibles qu’aux seuls membres du CLILLAC-ARP et ce à des fins de recherche uniquement.

American National Corpus

Première édition du ANC, disponible sous plusieurs formats (XML, texte brut, “stand-off”). Au total, le corpus compte environ 3 millions de mots pour la partie oral et 8 millions de mots pour la partie écrit. À noter qu’aujourd’hui une version mise à jour (près de 15 millions de mots) est distribuée sous licence libre sur le site de l’ANC.

British National Corpus

La version CD-ROM du BNC (World Edition, 2000) est disponible, sur demande, pour les membres du laboratoires (licence de site).

BYU Corpora

Le CLILLAC-ARP a financé l’achat d’une licence de site permettant aux membres du laboratoire d’accéder aux textes intégraux des corpus COCA (Corpus of Contemporary American English), COHA (Corpus of Historical American English) et GloWbE (Global Web-Based English). À noter que ces corpus sont interrogeables en ligne à cette adresse : http://corpus.byu.edu/

CELEX Lexical Database

La deuxième version de la base de données CELEX se compose de bases de données lexicales pour l’anglais, l’allemand et le néerlandais. La base de données CELEX est accessible à tout membre de l’université Paris Diderot (licence de site “université”).

ISLE Speech Corpus

Le corpus ISLE contient près de 20 minutes d’enregistrements de productions de 46 locuteurs d’un niveau intermédiaire d’apprentissage de l’anglais. Parmi ceux-ci, 23 sont des locuteurs natifs de l’allemand et 23 sont locuteurs natifs de l’italien. Chaque locuteur a été enregistré dans différents contextes : lecture de phrases simples, usage de paires minimales et réponses à des questions à choix multiples. La licence a été acquise auprès de l’ELDA (Agence pour l’Évaluation et la Distribution de Ressources Linguistiques). Le corpus est accessible à tout membre de l’université Paris Diderot (licence de site “université”).

MultiLingual Corpora for Cooperation

Les CD-ROM du corpus MLCC (MultiLingual Corpora for Cooperation – Polylingual Document Collection & Multilingual Parallel Corpus) sont disponibles sur demande.

Données et corpus extérieurs accessibles en open-access

Cette section liste un ensemble de ressources extérieures pouvant être utiles à la recherche et diffusées sous licence libre par leurs auteurs.

MCornell Movie-Dialogs Corpus

Ce corpus regroupe quelques 300.000 énoncés en anglais tirés de 617 scripts de films. Lien vers la ressource : https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

OPUS Corpus – The Open Parallel Corpus

La banque de corpus du projet OPUS regroupe un vaste ensemble de données textuelles libres récoltées sur internet. Ces textes ont la particularité d’être disponibles dans leur langue d’origine ainsi que dans au moins une langue de traduction. Il s’agit toujours de corpus parallèles et les origines des textes sont divers. On retrouve par exemple un vaste ensemble de textes du Parlement Européen (corpus EUROPARL), des textes littéraires (corpus Books) ou encore une grande collection de sous-titres de films (corpus OpenSubtitles). Lien vers la banque de corpus : http://opus.lingfil.uu.se/

Santa Barbara Corpus of Spoken American English

Le corpus de Santa Barbara regroupe la transcription de conversations spontanées informelles enregistrées dans plusieurs états des États-Unis. Les situations d’interaction sont variées et les locuteurs hétérogènes quant à leur âge, leur milieu social d’origine et leur lieu de naissance. Les transcriptions, alignées sur l’audio au niveau de l’unité intonative, sont disponibles au format Transcriber et CHAT (logiciel CLAN). Lien vers la ressource : http://www.linguistics.ucsb.edu/research/santa-barbara-corpus