Los corpus orales
Speech corpora.
Speech databases.
El tratamiento y el análisis de los corpus orales se lleva a cabo a partir de la señal sonora.
La representación simbólica del corpus suele realizarse mediante un alfabeto fonético.
La representación del corpus puede concebirse como un conjunto de niveles.
Niveles de representación en un corpus oral: segmentos, sílabas, palabras, representación ortográfica.
❯ Niveles de representación en un corpus oral
Puede considerarse que los corpus y bases de datos orales actuales surgen como resultado de la confluencia de tres tradiciones:
Desde su nacimiento a principios del siglo XX la fonética experimental ha utilizado corpus de datos para el análisis acústico del habla.
Relación con otras disciplinas lingüísticas como la dialectología que requieren la recogida de datos.
El uso de instrumentos propios de la fonética experimental hace necesario partir de realizaciones de uno o más hablantes.
Necesidad de controlar la aparición de las variables que pueden influir en los elementos segmentales o en los elementos suprasegmentales del habla.
Corpus: conjunto controlado de realizaciones fonéticas.
A partir de los años 70 se desarrollan las posibilidades de llevar a cabo aplicaciones prácticas en el campo de las tecnologías del habla, especialmente en el ámbito del reconocimiento automático del habla.
El tratamiento del corpus se realiza a partir de la señal sonora.
El objetivo es obtener información fonética o desarrollar aplicaciones de síntesis, reconocimiento o diálogo.
La representación simbólica del corpus suele hacerse mediante un alfabeto fonético.
El corpus se concibe como un conjunto de niveles de representación.
Bases de datos orales (speech databases): conjunto de realizaciones fonéticas (en general, procedentes de un número elevado de hablantes) que permite el entrenamiento y la evaluación de sistemas y aplicaciones en el campo de las tecnologías del habla.
Desarrollada a partir de los años 60 al margen de las tecnologías del habla y de la fonética experimental.
Parte de la idea de que la descripción de la lengua no puede llevarse a cabo únicamente mediante la intuición del hablante nativo, sino que requiere un conjunto de muestras reales.
Fonética experimental y tecnologías del habla:
Necesidad de corpus con transcripción ortográfica:
(Fuente de la imagen: Moore, R. K. (2021). Prof. Roger K. Moore. The University of Sheffield. http://staffwww.dcs.shef.ac.uk/people/R.K.Moore/)
|
Lingüística de corpus y tecnologías del habla:
Integración entre el procesamiento del lenguaje natural y las tecnologías del habla.