Corpus orales para la fonética y las tecnologías del habla en español
Esta página ha dejado de actualizarse
Albayzín, Base de datos para el reconocimiento del habla en español
Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.
Departamento de Señales, Sistemas y Radiocomunicaciones, Escuela Técnica Superior de Ingenieros de Telecomunicación, Universidad Politécnica de Madrid.
GPySC, Grupo de Investigación en Procesamiento de Señales y Comunicaciones, Departamento de Electrónica y Tecnología de Computadores, Facultad de Ciencias, Universidad de Granada.
Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.
GTH, Grupo de Tecnología del Habla, Departamento de Ingeniería Electrónica, Escuela Técnica Superior de Ingenieros de Telecomunicación, Universidad Politécnica de Madrid.
RFIA, Grupo de Reconocimiento de Formas y Tecnologías del Lenguaje Humano, Departamento de Sistemas Informáticos y Computación - Instituto Tecnológico de Informática, Universidad Politécnica de Valencia.
Objetivos del corpus
Desarrollo de las tecnologías del habla en español.
Entrenamiento y evaluación de sistemas de procesado y de reconocimiento automático de habla.
Comparación de resultados de diversos sistemas de reconocimiento automático de habla empleados con un mismo corpus.
Desarrollo de sistemas de comprensión de habla en el contexto de sistemas de diálogo.
Obtención de información acústica para la conversión de texto en habla.
Desarrollo de estudios fonéticos:
- Estudio de la variabilidad inter e intralocutor.
- Estudio de la variabilidad contextual de las realizaciones segmentales.
- Estudio de la variabilidad condicionada por las condiciones ambientales.
Características del corpus
Corpus fonético
Diseñado para recoger un amplio margen de variabilidad fonética en las realizaciones alofónicas.
Subcorpus de aprendizaje
200 enunciados fonéticamente equilibrados con restricciones adicionales.
Contextos fonéticos relevantes:
- Combinaciones con frecuencia relativa de aparición superior al 10%.
- Cada consonante aparece seguida y precedida de una vocal anterior, una central y una posterior.
- Aparición de los grupos obstruyente + líquida.
- Aparición de algunas combinaciones en las que se producen efectos contextuales importantes.
Posición en la sílaba.
Acentuación.
Restricciones estadísticas:
- Número mínimo de apariciones de cada alófono en el corpus: 40 (960 realizaciones totales).
- Número mínimo de apariciones de contextos relevantes: 4 (96 realizaciones totales).
- Error normalizado de la frecuencia de aparición de los alófonos menor del 15%.
- Desviación normalizada en la aparición de alófonos acentuados e inacentuados menor del 20%.
Distribuidos en grupos fonéticamente equilibrados de 25 enunciados.
- 4 locutores x 200 enunciados.
- 160 locutores x 25 enunciados.
- 24 producciones de cada enunciado.
Subcorpus de prueba
Características:
- 500 enunciados fonéticamente equilibrados.
- Distribuidos en grupos de 50 enunciados.
- 23.190 alófonos.
- 40 locutores x 50 enunciados.
- 4 producciones de cada enunciado.
Constitución y restricciones:
- Constitución de la muestra de referencia seleccionando 1000 oraciones de dos novelas castellanas contemporáneas.
- Edición manual.
- Transcripción fonética automática.
- Selección de oraciones.
- Mínimo de 50 apariciones de cada alófono en el subcorpus.
- Mínimo de 224 realizaciones de cada alófono.
Determinación del inventario de elementos segmentales considerados
Estudio de la frecuencia de aparición en un corpus fonéticamentre transcrito de entrevistas semidirigidas con una muestra de más de 100.000 segmentos.
Eliminación de los segmentos con una frecuencia de aparición inferior al 0.1%.
Inventario final: 24 fonemas y 7 alófonos.
Llisterri, J. y Mariño, J. B. (1993). Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/V1. ESPRIT Project 6819 SAM-A, Speech Technology Assessment in Multilingual Applications. Consultado en https://joaquimllisterri.cat/publicacions/SAMPA_Spanish_93.pdf
Aplicaciones del corpus fonético
Datos estadísticos sobre una muestra de referencia del español oral.
Corpus oral fonéticamente equilibrado y con restricciones que permite el estudio de la variabilidad.
Corpus para el entrenamiento y la evaluación de sistemas de reconocimiento automático de habla.
Corpus de aplicación
3900 frases correspondientes a una tarea de consulta a una base de datos.
Corpus de habla en condiciones adversas
Partes del corpus fonético y del corpus de aplicación grabadas con efecto Lombard.
Locutores
304 locutores.
Hablantes de la variedad central del castellano.
Sin rasgos específicos ni de una zona geográfica ni de un grupo social restringido.
- 50% hombres - 50 % mujeres.
- Entre 18 y 30 años (50 %).
- Entre 31 y 40 años (25 %).
- Entre 41 y 55 años (25 %).
Estándares utilizados
Estándares del proyecto ESPRIT 2589 SAM:
- Adquisición: SESAM y EUROPEC.
- Estructuración de los datos: ficheros documentados.
- Transcripción: SAMPA.
Segmentación manual de 1200 enunciados.
Distribución en CD-ROM.
Disponibilidad:
Base de datos oral del español Albayzín. Universitat Politècnica de València, Universidad Politécnica de Madrid, Universidad de Granada, Universitat Autònoma de Barcelona, Universitat Politècnica de Catalunya. 5 CD-ROM. 1999.
ELDA,
Evaluations and Language resources Distribution Agency:
http://catalog.elra.info/product_info.php?products_id=746&osCsid=7a272af9a54b96add9f69ac305a7ed28
Miembros de ELRA: Investigadores 1000 Euros / Empresas 10000 Euros / Investigadores españoles 100 Euros
Investigadores 2000 Euros / Empresas 12000 Euros / Investigadores españoles 120 Euros
Referencias
Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.
Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.
EUROM1 - Multilingual Speech Corpus
Corpus común para el desarrollo de las tecnologías del habla en Europa.
Uso de materiales comunes para la evaluación y entrenamiento de sistemas.
Desarrollo de materiales equivalentes en complejidad en los niveles segmental, léxico, oracional y textual.
Contenidos del corpus
Logatomas CV(C):
- Consonantes en posición inicial, media y final.
- Contexto /i, a, u/.
100 dígitos.
Logatomas en 5 frases marco diferentes.
40 párrafos de 5 frases cada uno.
50 frases para aumentar la cobertura fonética.
Locutores
60 locutores: 6 frases y dígitos.
10 locutores: 75 frases, 5 x 100 dígitos, logatomas CVC.
4 locutores: logatomas CVC aislados y en frase marco x 10 repeticiones.
Disponibilidad:
Referencias
Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.
Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.
SPEECHDAT, Spoken Language Resources
SpeechDat
Objetivos del proyecto
Definición de estándares para la creación de bases de datos orales para las tecnologías del habla.
Creación de una infraestructura para la producción y distribución de recursos lingüísticos.
Desarrollo de bases de datos en 7 lenguas.
Contenidos del corpus
Palabras relacionadas con la aplicación.
Números del 1 al 10.
Cadenas de números.
Fechas.
Expresiones relacionadas con la aplicación.
Dígitos aislados.
Letras.
Cantidades de dinero.
Números naturales.
Nombres de lugar.
Respuesta «sí» o «no».
Frases fonéticamente ricas.
Horas.
Palabras complementarias.
Disponibilidad:
SPEECHDAT II, Speech Databases for the Creation of Voice Driven Teleservices
SpeechDat
Objetivos del proyecto
Creación de corpus orales para el desarrollo de teleservicios.
Servicios de información:
Servicios de transacciones:
- Compras desde el domicilio.
- Servicios bancarios.
Servicios telefónicos:
- Correo hablado.
- Centralitas automáticas.
SpeechDat-Car, Speech Databases for Voice Driven Teleservices and Control in Automotive Environments
SpeechDat
Objetivos del proyecto
Creación de bases de datos para el desarrollo de sistemas de ayuda a la conducción mediante el habla.
- Acceso a información.
- Acceso al teléfono y al control de la información.
Características del corpus
Adquisición del corpus en entorno real.
- Interior de un coche en marcha.
- Teléfono GSM con manos libres.
300 hablantes y 9 lenguas.
The Sala Project - SpeechDat Across Latin America
Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.
Creación de bases de datos para el entrenamiento de sistemas de reconocimiento de habla.
Aplicaciones telefónicas.
Estándares desarrollados en SpeechDat.
Argentina, Chile, Colombia, Cuba, Ecuador, México, Perú, Venezuela.
Referencias
ACCOR, Articulatory-Acoustic Correlations in Coarticulatory Processes - A Cross-Linguistic Investigation
Base de datos multicanal.
7 lenguas europeas.
Datos fisiológicos:
- Electropalatografía.
- Transducción electromagnética.
Datos aerodinámicos.
Marchal, A., Hardcastle, W. J., Hoole, P., Schmidbauer, O., Galiano, I., Engstrand, O. y Recasens, D. (1991). The design of a multichannel database. En ICPhS 1991. Actes du 12ème congrès international de sciences phonétiques. Vol 5. (pp. 422-5). Aix-en-Provence: Université de Provence, Service des Publications.
Marchal, A. y Hardcastle, W. J. (1993). ACCOR: Instrumentation and database for the cross-language study of coarticulation. Language and Speech, 36, 137-153.
Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.
MULTEXT, Multilingual Text Tools and Corpora
Etiquetado prosódico mediante el sistema INTSINT de los párrafos de EUROM_1.
- Versión en español.
- Versión en catalán.
Hirst, D., Ide, N. y Véronis, J. (1994). Coding fundamental frequency patterns for multi-lingual synthesis with INTSINT in the MULTEXT project. En
SSW2-1994. Proceedings of the second ESCA/IEEE workshop on speech synthesis. (pp. 77-80). Mohonk Mountain House, New Paltz, NY, USA, September 12-15, 1994. Consultado en
http://www.isca-speech.org/archive_open/ssw2/ssw2_077.html
Llisterri, J. (Ed.). (1996).
Prosody tools efficiency and failures. (WP 4 Corpus. T4.6 Speech Markup and Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT. Consultado en
https://joaquimllisterri.cat/publicacions/Prosody_tools_96.pdf
Disponibilidad:
Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.
Telefónica I+D, Madrid.
MATE, Multilevel Annotation, Tools Engineering
Anotación prosódica de diálogos para el desarrollo de sistemas de comunicación persona - máquina.
Corpus orales para la fonética y las tecnologías del habla en español
Corpus orales para la fonética y las tecnologías del habla en español
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La pàgina va ser modificada per darrera vegada el Esta página ha dejado de actualizarse