ALOES 2024 pre-conference workshop
Pre-conference Workshop on Internet Spoken Corpora of English
Thursday 28 March l 2024
14h 15 Adrien Méli the PEASYV pipeline
14h 45 Peter Uhrig (Erlangen) A pipeline for the creation of multimodal corpora from YouTube (zoom presentation)
15h 15 Coffee break
session 2. Hands-on session : Using Python notebooks to stream your data
15h 45 convenant : Steven Coats (University of Oulu)
Participants need to bring their own laptops and to have a Google account as we will use a Google Colaboratory notebook
session 3. Post-processing and corpus curation
17h Steven Coats : CoANZSE/CoANZSE Audio: The Corpus of Australian and New Zealand Spoken English on CLARIN
4. round table and conclusion
17h30 Richard Wright : some extra requirements for corpora : the ATAROS corpus
discussants : Sylvain Navarro (UPCité), Rory Turnbull (Newcastle) & Richard Wright (Seattle)
Participation to the workshop is free of charge, but participants must register https://forms.gle/wXBpjiJ8dHatCcdYA
Coming to us: Bâtiment Olympe de Gouges, Place Paul Ricoeur 75013 Paris (building 10 on the map)
Room 720 (7th floor)
Ask for a badge at the information desk (“accueil”)
Zoom link: https://u-paris.zoom.us/j/84241112950?pwd=c0syNGhFTk9BZC9iNGx2MFFrZW1hQT09
Accès au bâtiment Olympe de Gouges
- Steven Coats. 2023b. A new corpus of geolocated ASR transcripts from Germany. Language Resources and Evaluation. https://doi.org/10.1007/s10579-023-09686-9
- Steven Coats. 2023c. A pipeline for the large-scale acoustic analysis of streamed content. In Proceed– ings of the 10th International Conference on CMC and Social Media Corpora for the Humanities (CMC- Corpora 2023), page 51–54. Mannheim: Leibniz- Institut für Deutsche Sprache.
- Méli, Adrien, Steven Coats and Nicolas Ballier. (2023). Methods for phonetic scraping of Youtube videos. In Proceedings of the 6th International Conference on Natural Language and Speech Processing (ICNLSP 2023), 244–249. https://aclanthology.org/volumes/2023.icnlsp-1/
- Adrien Méli and Nicolas Ballier. 2023. PEASYV: A procedure to obtain phonetic data from subtitled videos. Proceedings of the International Congress of Phonetic Sciences, pages 3211 – 3215 https://hal.science/hal-04319467/document
- Adrien’s presentation: https://adrienmeli.xyz/aloes/#/title-slide
- Dykes, N., Wilson, A., & Uhrig, P. (2023, September). A Pipeline for the Creation of Multimodal Corpora from YouTube Videos. In Proceedings of the 1st Workshop on Linguistic Insights from and for Multimodal Language Processing (pp. 1-5). https://aclanthology.org/2023.limo-1.1.pdf
Contact person : Nicolas Ballier nicolas.ballier@u-paris.fr
À lire aussi
Interaction in TED Talks – TransQuest Project
September 13, ODG 830 Université Paris Cité, CLILLAC-ARP Journée d'Études du projet TransQuest Organiser: Agnès Celle Accès au bâtiment Olympe de Gouges Programme 9:30-10:15 Fiona Rossette-Crake, guest speaker, Université Paris Nanterre, CREATED Talks : Oratory, “New...
SILES – Séminaire International sur la Langue Espagnole (2024-2025)
SILES est un groupe de travail, d’échange et de recherche autour de l’espagnol animé par l’équipe de linguistes hispanistes de l’UFR EILA de l’Université Paris Cité, rattaché à l’équipe de recherche CLILLAC-ARP. Ce séminaire se donne pour but de réunir périodiquement...
Politiques linguistiques en Europe – Séminaire de Recherche, 2009-2010
Logos de l'Observatoire Européen du plurilinguisme et de la Délégation générale à la langue française et aux langues de France (DGLFLF)2009-2010 Le professeur José Carlos Herreras anime régulièrement un séminaire de recherche intitulé Les politiques linguistiques en...
Politiques linguistiques en Europe – Séminaire de Recherche, 2010-2011
Logos de l'Observatoire Européen du plurilinguisme et de la Délégation générale à la langue française et aux langues de France (DGLFLF)2010-2011 Programme Les thèmes proposés illustrent les politiques linguistiques menées, en fonction de leur propre situation, dans un...