La representación ortográfica de corpus orales
Transcripción (denominada, en ocasiones, ‘transliteración’) utilizando la ortografía convencional de los enunciados producidos por los hablantes.
Nivel de representación común a todo tipo de corpus orales.
❯ La transcripción
En la transcripción ortográfica se introduce información adicional adecuadamente codificada.
Problemas:
El empleo de los signos de puntuación:
- La introducción de puntuación en transcripciones de habla espontánea implica necesariamente una segmentación del enunciado que, en algunos casos, puede estar sujeta a la interpretación del transcriptor.
- Eliminación de los signos de puntuación: disminuye notablemente la legibilidad del texto.
- Empleo de los signos de puntuación según las normas habituales de cada lengua.
La transcripción ortográfica del habla espontánea:
- Formas no normativas.
- Variantes geográficas.
- Números, siglas, acrónimos y abreviaturas.
- Interjecciones y formas semi-léxicas.
- Disfluencias.
Convenciones desarrolladas por French (1991, 1992) utilizadas en la constitución de la parte oral del corpus COBUILD.
French, P. (1991).
Updated notes for soundprint transcribers (Working paper NERC-WP4-47). University of Birmingham.
French, P. (1992).
Transcription proposals: Multilevel system (Working paper NERC-WP4-50). University of Birmingham.
- Se emplea la ortografía convencional para la representación de las palabras.
- Las únicas contracciones aceptadas son las que aparecen en el Oxford English Dictionary.
- La separación entre frases se marca mediante un punto y el uso de mayúscula al inicio de la frase.
- En el interior de las frases no se utilizan comas.
- Las citas se marcan entre comillas simples.
- El apóstrofo se usa en los posesivos y en las contracciones según las convenciones habituales del inglés.
Recoge las sugerencias de NERC (Network of European Reference Corpora) y algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla.
- Se recomienda utilizar siempre que sea posible las formas ortográficas que aparecen en los diccionarios normativos o estándares para cada lengua, convención que se aplica también a contracciones, formas reducidas, apóstrofos, formas dialectales, interjecciones y formas semi-léxicas.
- Si puede darse más de una forma ortográfica de la misma palabra o si se introducen representaciones ortográficas que no aparecen en los diccionarios, es recomendable mantener una base de datos con las formas utilizadas en la transcripción.
- Los números, las abreviaturas, los acrónimos y las palabras deletreadas deben representarse ortográficamente tal como son pronunciadas por el hablante, utilizando la forma ortográfica completa.
LE-24001 SpeechDat: Speech Databases for Creation of Voice Driven Teleservices. (1996–1998). Language Engineering, Telematics Applications Programme, FP4, European Commission.
https://cordis.europa.eu/project/id/LE24001
Creación de recursos lingüísticos especialmente adecuados al entrenamiento y evaluación de sistemas de reconocimiento automático del habla.
Dos recomendaciones básicas: Keep it simple y Document everything adequately.
«The transcription is intended to be an ORTHOGRAPHIC, lexical transcription with a few details included that represent audible acoustic events (speech and non speech) present in the corresponding waveform files. The extra marks contained in the transcription aid in interpreting the text form of the utterance. … The transcription is intended to be a quick and broad transcription. Transcribers should not have to agonise over decisions, but rather realise that their transcription is intended to be a rough guide that others may examine further for details.»
- Empleo de las formas ortográficas habituales.
- Selección de un diccionario para cada lengua y creación de un léxico con las representaciones ortográficas de las palabras y con las representaciones alternativas si existe más de una forma aceptable para una determinada palabra.
- Las abreviaturas se transcriben como formas deletreadas completas a no ser que el locutor las haya pronunciado de otro modo.
- Las secuencias de números se transcriben en la forma en que fueron pronunciadas por el informante.
- Las formas deletreadas se transcriben con mayúsculas y separadas por un espacio.
- No se incluyen signos de puntuación en la transcripción.
- Procedimientos para la transcripción de errores de pronunciación, de palabras ininteligibles, fragmentos de palabras, elisiones y acontecimientos acústicos no verbales como las denominadas pausas llenas (o pausas sonoras), ruidos producidos por el hablante, ruidos estacionarios en la grabación o ruidos intermitentes.
- Las formas reducidas de las palabras se transcriben tal como aparecen en los diccionarios normativos.
- Si es necesario, y si se documentan adecuadamente, pueden utilizarse formas que no aparezcan en los diccionarios.
- Se recomienda el uso de formas reducidas si aparecen frecuentemente y si implican elisiones de sílabas.
- Las formas dialectales se marcan en la transcripción.
- Los números se transliteran como palabras.
- En la transcripción ortográfica se utilizan las formas completas de las abreviaturas.
- Las abreviaturas que los hablantes pronuncian como palabras se transcriben de este mismo modo.
- En las transcripciones se indica la aparición de palabras deletreadas.
- Las interjecciones se transcriben con la representación ortográfica que aparece en los diccionarios.
Pino, M. (1998). Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Ver- sión 2.0. Instituto de Lexicografía, Real Academia Española. 29/07/1997. En J. A. Samper, C. E. Hernández Cabrera y M. Troya (Eds.),
Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH) [CD-ROM]. Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.
Pino, M. y Sánchez, M. (1999). El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): procedimientos de transcripción y codificación.
Oralia. Análisis del Discurso Oral, 2, 83–138.
- La representación ortográfica debe hacerse de acuerdo con las convenciones ortográficas normativas del español.
- Las formas reducidas de una palabra pueden transcribirse sin modificación, siempre que sean frecuentes e impliquen eliminación de sílabas.
- Las abreviaturas y acrónimos se transcriben tal como los pronuncie el hablante. Si este pronuncia una palabra, se transcribe como tal; si deletrea el acrónimo, se transcribe en forma de palabra cada letra, separándola del resto de letras deletreadas por un guión.
- Las secuencias numéricas deben transcribirse también en forma de palabras. Se utiliza el guión como separador para los casos de listas de números. No se emplea el guión, en cambio, en expresiones numéricas pronunciadas según el sistema numérico decimal.
- Las interjecciones se representan de acuerdo con la ortografía estándar del Diccionario de la lengua española, pero entre corchetes. Cualquier otra expresión vocal no recogida por el diccionario se transcribe entre corchetes y, si es necesario, con algún otro tipo de signo ortográfico.
- Los límites de enunciado «ortográfico» pueden marcarse con un punto, una interrogación o una exclamación. El comienzo de enunciado debe ir indicado con mayúscula inicial. En general, deben seguirse las reglas de puntuación normativas, con algunas restricciones:.
- No se utiliza el punto y coma.
- La coma se utiliza siguiendo, en principio, las normas de puntuación, aunque respetando, a ser posible, las pausas que realice el hablante. Es importante que el texto se pueda leer de manera semejante a como fue pronunciado.
- Los dos puntos deben emplearse para marcar el comienzo de discurso directo, citas y algunas enumeraciones (las que vayan precedidas por una pausa). Como norma general, tras los dos puntos se introducirá mayúscula si la secuencia que sigue constituye una cláusula u oración, pero se pondrá minúscula si se trata de una enumeración.
- Se emplean tres medios tipográficos de resalte: comillas dobles, cursiva y letras mayúsculas en toda la palabra.
- Las comillas dobles se utilizarán para marcar un discurso directo o una cita.
- La cursiva servirá para representar los títulos, las palabras extranjeras no adaptadas, los usos metalingüísticos, los nombres de conceptos, las marcas o locales comerciales y cualquier otro tipo de texto que aparezca resaltado, normalmente, en los textos escritos.
- La intensidad muy superior a lo normal (más de lo que es habitual en la función informativa de foco, por ejemplo), cercana al grito, en alguna palabra, se marca mayúsculas en todas las letras de la palabra.
- Los errores de producción se representan entre asteriscos.
- Las rectificaciones del discurso y las pausas que suponen interrupciones bruscas del discurso se marcan por medio de puntos suspensivos.
- Los titubeos que dan lugar a palabras repetidas deben transcribirse. Es conveniente dejar espacios en blanco entre las formas repetidas o rectificadas.
- Los titubeos que dan lugar a fragmentos de palabras se transcriben por medio de dos asteriscos pegados a la forma incompleta por la derecha.
- Los fragmentos ininteligibles se transcriben como tres signos de interrogación de cierre, y los fragmentos poco claros se transcriben con tres signos de interrogación de inicio y tres de cierre.
La representación ortográfica de corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La pàgina va ser modificada per darrera vegada el