Los corpus orales
Joaquim Llisterri
Grup de Fonètica, Departament de Filología Española, Universitat Autònoma de Barcelona
Lingüística de corpus
Programa de doctorat en Ciència Cognitiva i Llenguatge
CLiC, Centre de Llenguatge i Computació, Departament de Lingüística General, Universitat de Barcelona
23 i 30 de gener de 2008
1. Los corpus orales
El concepto de corpus. Corpus escritos y corpus orales. Especificidad de los corpus de lengua hablada: corpus orales (speech corpora) y corpus de lengua oral (spoken language corpora). Etapas en la constitución de los corpus de lengua hablada.2. Diseño de corpus orales
La selección de los materiales del corpus. La selección de los informantes.2.1. Corpus de lengua oral
Criterios de diseño derivados del análisis del discurso y del análisis de la conversación. Criterios de diseño derivados de la sociolingüística. Criterios de diseño derivados de la dialectología.2.2. Corpus orales
Criterios de diseño de corpus para el estudio fonético segmental y suprasegmental: corpus semi-espontáneos y corpus ad-hoc. Criterios de diseño de corpus para el desarrollo de las tecnologías del habla: corpus para la síntesis, para el reconocimiento y para los sistemas de diálogo; corpus para otros ámbitos de las tecnologías del habla.3. Obtención de corpus orales
El entorno de la grabación. Instrumentos para la grabación. Formatos de los ficheros de sonido. Los problemas de la grabación en entornos naturales. La grabación en un entorno de laboratorio.4. Transcripción y etiquetado de corpus orales
4.1. La transcripción ortográfica de la lengua oral
Problemas de la representación ortográfica del habla espontánea: formas no normativas, variantes geográficas, números, siglas, acrónimos y abreviaturas, interjecciones y formas semi-léxicas, disfluencias, signos de puntuación. El concepto de transcripción ortográfica “enriquecida”.4.2. La transcripción fonética de corpus orales
4.2.1. Transcripción fonética segmental
Sistemas de representación fonética segmental: AFI (Alfabeto Fonético Internacional), SAMPA (SAM-Phonetic Alphabet) y WordlBet.4.2.2. Transcripción de los elementos suprasegmentales
Sistemas de representación de los elementos suprasegmentales: AFI (Alfabeto Fonético Internacional), SAMPROSA (SAM Prosodic Alphabet), INTSINT (International System for Intionation Transcription) y ToBI (Tones and Break Indices).4.3. El etiquetado de los corpus orales
4.3.1. Niveles de etiquetado en los corpus orales
Etiquetado fonético segmental, fonológico segmental, fonético suprasegmental, fonológico suprasegmental. La relación entre los niveles de etiquetado. La alineación temporal.4.3.2. Herramientas para el etiquetado de corpus orales
Herramientas de etiquetado de dominio público y multiplataforma: Praat y WaveSurfer.5. Codificación de los corpus orales
5.1. El concepto de codificación
Los lenguajes de marcación: separación entre el texto y las marcas de codificación. La TEI (Text Encoding Initiative) como estándar de codificación.5.2. La codificación del discurso oral
Elementos codificados en los corpus de lengua oral: divisiones, enunciados, pausas, elementos vocalizados semi-léxicos y no léxicos, elementos no vocales, eventos, texto escrito, cambios, identidad de los hablantes, turnos de palabra, fenómenos propios de la lengua hablada. - elisiones y fragmentos de palabras, disfluencias y autocorrecciones -, fragmentos no inteligibles.6. Las aplicaciones y la explotación de los corpus orales
Formatos de almacenamiento del corpus. Procedimientos de consulta. La documentación del corpus.6.1. Aplicaciones y explotación de corpus de lengua oral
Herramientas para el análisis textual. Frecuencia de aparición de palabras o de marcas. Concordancias. Colocaciones. Uso de corpus de lengua oral en estudios lingüísticos. Los corpus de lengua oral en la lingüística aplicada. Corpus de lengua oral y documentación de lenguas.6.2. Aplicaciones y explotación de corpus orales
Herramientas para el análisis acústico de dominio público y multiplataforma: Praat y WaveSurfer. Uso de corpus orales en los estudios fonéticos y en el desarrollo de aplicaciones en el campo de las tecnologías del habla.
Corpus orales
BRIZ, A. (Ed.) (2005) Los corpus de español hablado. Oralia. Análisis del discurso oral 8.DRAXLER, C. (2000) «Speech databases», in VAN EYNDE, F. - GIBBON, D. (Eds.) Lexicon Development for Speech and Language Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 12). pp. 169-206.
GIBBON, D. - MOORE, R.- WINSKI, R. (Eds.) (1998) Spoken Language Systems and Corpus Design. Berlin: Mouton De Gruyter. (Handbook of Standards and Resources for Spoken Language Systems, Volume I).
LLISTERRI, J. (1996) «Els corpus lingüístics orals», in PAYRATÓ, Ll. - BOIX, E. - LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. pp. 27-70.
https://joaquimllisterri.cat/publicacions/UB_Corpus_93.pdf
MORENO FERNÁNDEZ, F. (1997) «La formación de corpus de lengua hablada», in MORENO FERNÁNDEZ, F. (Ed.) Trabajos de sociolingüística hispánica. Alcalá de Henares: Universidad de Alcalá, Servicio de Publicaciones (Ensayos y Documentos, 27) pp. 93-114.
SCHIEL, F. - DRAXLER, C. - BAUMANN, A. - ELLBOGEN, T. - STEFFEN, A. (2004) The Production of Speech Corpora. Version 2.5. Munich: Bavarian Archive for Speech Signals.
http://www.phonetik.uni-muenchen.de/Forschung/BITS/TP1/Cookbook/
Transcripción, codificación y etiquetado de corpus orales
BARRY, W. J. - FOURCIN, A. J. (1992) «Levels of Labelling», Computer Speech and Language 6: 1-14.
COSI, P. (2002) «Metodologie e sistemi per l’annotazione linguistica», Quaderni dell'Istituto di Fonetica e Dialettologia 4.
http://www2.pd.istc.cnr.it/Papers/quaderni2002.zip
DYBKJAER, L. - BERMAN, S. - KIPP, M. - WAGENER, M. - PIRRELLI, V. - REITHINGER, N. - SORIA, C. (2001) Survey of Existing Tools, Standards and User Needs for Annotation of Natural Interaction and Multimodal Data. ISLE Natural Interactivity and Multimodality Working Group. D11.1. January 2001.
http://spokendialogue.dk/Publications/2001f/D11.1-14.2.2001-F.pdf
EDWARDS, J. A.- LAMPERT, M. D. (Eds.) (1993) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates.
LEECH, G. - MYERS, G. - THOMAS, J. (Eds.) (1995) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman.
LLISTERRI, J. (1999) «Transcripción, etiquetado y codificación de corpus orales», Revista Española de Lingüística Aplicada, Volumen Monográfico “Panorama de la Investigación en Lingüística Informática”. pp. 53-82.
https://joaquimllisterri.cat/publicacions/RESLA_99.pdf
PAYRATÓ, Ll. (1995) «Transcripción del discurso coloquial», in CORTÉS RODRÍGUEZ, L. (Ed.) El español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de 1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70.
WEGENER, R .- MARTIN, J. C. - DYBKJAER, L. - MACHUCA, M. J. - BERNSEN, N. O. - CARLETTA, J. - HEID, U.- KITA, S. - LLISTERRI, J. - PELACHAUD, C. - POGGI, I. - REITHINGER, N. - van ELSWIJKS, G. - WITTENBURG, P. (2002) Survey of Multimodal Coding Schemes and Best Practice. ISLE Natural Interactivity and Multimodality. Working Group Deliverable D9.1. February 2002.
http://spokendialogue.dk/Publications/2002o/D9.1-7.3.2002-F.pdf
WELLS, J. C. (2003) «Phonetic symbols in word processing and on the web», in Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, 3-9 August, 2003. CD-ROM Edition. Casual Productions. pp. 3105-3108.
http://www.phon.ucl.ac.uk/home/wells/ICPhS_18.pdf
Herramientas para el tratamiento de corpus orales
DELLWO, V. (2003) «Tools for a combined analysis of speech & gesture», in Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, 3-9 August, 2003. CD-ROM Edition. Casual Productions.
GARG, S. - MARTINOVSKI, B. - ROBINSON, S. - STEPHAN, J. - TETREAULT, J. - TRAUM, D. R. (2004) «Evaluation of transcription and annotation tools for a multi-modal multi-party dialogue corpus», in LREC 2004. Proceeedings of the 4th International Conference on Language Resources and Evaluation. 26-28 May, 2004, Lisbon, Portugal. Paris: ELRA, European Language Resources Association. pp. 2163 - 2166.
http://ict.usc.edu/publications/tools6.pdf
JACOBSON, M. (2004) «Gestion de corpus oraux annotés: Méthodes et outils», in JEP 2004. XXVes Journées d'Etudes sur la Parole. 19-22 avril 2004, Fès, Maroc.
http://aune.lpl.univ-aix.fr/jep-taln04/proceed/actes/jep2004/Jacobson.pdf
ROHLFING, K. - LOEHR, D. - DUNCAN, S. - BROWN, A. - FRANKLIN, A .- KIMBARA, I. - MILDE, J.-T. - PARRILL, F. - ROSE, T. - SCHMIDT, T. - SLOETJES, H. - THIES, A. - WELLINGHOFF, A. (2005) «Comparison of multimodal annotation tools - workshop report», in Tools Symposium. Second Congress of the International Society for Gesture Studies. 15-18 June 2005. Université de Lyon 2, France.
http://www.gespraechsforschung-ozs.de/heft2006/tb-rohlfing.pdf
VÉRONIS, J. (Ed.) (2004) Le traitement automatique des corpus oraux, Traitement automatique des langues 45, 2.
Puede encontrarse una bibliografía más detallada en:
https://joaquimllisterri.cat/language_resources/spoken_res/biblio_corpus_orals.html
Los corpus orales (2007-2008)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de
Barcelona
https://joaquimllisterri.cat/language_resources/UB_08/UB_08_general.html
La pàgina va ser modificada per darrera vegada el 30/01/08
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.