El reconocimiento automático del habla
Esta página ha dejado de actualizarse
RAH, Reconocimiento automático del habla.
RAP, Reconeixement automàtic de la parla.
ASR, Automatic Speech Recognition.
Objetivo: obtener una representación simbólica discreta de una señal vocal continua.
El desarrollo de un sistema de reconocimiento automático del habla requiere dos fases:
La variación fonética interlocutor.
La variación fonética intralocutor.
Los estilos de habla.
Las «disfluencias» en el habla espontánea.
Las características del entorno.
Reconocimiento de palabras aisladas.
Reconocimiento de palabras conectadas.
Reconocimiento de palabras clave (word spotting).
Reconocimiento de habla continua.
Reconocimiento de habla espontánea.
Sistemas dependientes del locutor.
Sistemas independientes del locutor.
Entrenamiento con la voz del usuario en Microsoft Windows 8.
Microsoft. (2016). How to use speech recognition in Windows. Consultado en https://support.microsoft.com/ca-es/help/14213/windows-how-to-use-speech-recognition
Vocabulario restringido.
Vocabulario especializado.
Vocabulario general sin restricciones.
Entorno silencioso.
Entorno con ruido predecible.
Entorno con ruido aleatorio.
Usuario entrenado.
Usuario habitual.
Usuario ocasional.
Usuario sin experiencia.
Juang, B.-H. y Rabiner, L. R. (2006). Speech recognition, Automatic: History. En K. Brown (Ed.), Encyclopedia of language & linguistics (2nd ed., pp. 806–819). https://doi.org/10.1016/B0-08-044854-2/00906-8
(Fuente de la imagen: Wayne Lea [Perfil en LinkedIn]. (s.f.). Consultado el 4 de marzo de 2019, en https://www.linkedin.com/in/wayne-lea-4a2a1514/)
|
Comparación entre la señal y un modelo (plantilla de referencia) establecido durante la fase del entrenamiento del sistema.
Determinación de la distancia (diferencia) entre la señal y la referencia.
Decisión sobre la similitud entre la señal y la referencia.
Etapas en el reconocimiento de señales continuas.
La señal y el modelo de referencia se representan mediante un conjunto de parámetros.
Parámetros temporales:
Parámetros frecuenciales:
La señal se analiza en parámetros acústicos.
La segmentación de la señal se realiza a partir de la identificación de los parámetros acústicos que aparecen en los segmentos sucesivos.
Concatenación de los segmentos identificados para reconocer la señal de entrada.
Aplicación de técnicas de comparación de señales continuas.
Comparación entre la señal y el modelo almacenado.
Reconocimiento de palabras aisladas.
Utilización del análisis acústico de la señal para la detección de las propiedades fonéticas.
The International Engineering Consortium. (s.f.). Speech-enabled interactive voice response systems (Web Pro-Forum Tutorials). The International Engineering Consortium. Chicago, IL. Consultado en http://www.uky.edu/~jclark/mas355/SPEECH.PDF
Utilización de técnicas de descodificación acústico-fonética.
Requiere la definición de un «modelo de lenguaje»: modelo estadístico que refleja la probabilidad de aparición de una palabra en función de las palabras anteriores.
Para la creación del modelo de lenguaje se utilizan n-gramas extraídos de un corpus textual.
Requiere la creación de un diccionario (lexicon) con la representación fonética del léxico.
Utilización de unidades de reconocimiento: difonos (difonemas).
Funcionamiento de un sistema de reconocimiento automático del habla.
Grabianowski, E. (2006, 10 de noviembre). How speech recognition works. Consultado en https://electronics. howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm
Esquema básico de un sistema de reconocimiento automático del habla.
Módulos de un sistema de reconocimiento automático del habla.
Rabiner, L. R. y Juang, B.-H. (2006). Speech recognition: Statistical methods. En K. Brown (Ed.), Encyclopedia of language & linguistics (2nd ed., pp. 1–18). https://doi.org/10.1016/B0-08-044854-2/00907-X
Modelo de reconocimiento de habla continua.
Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.
Modelo de reconocimiento de habla continua: procesador acústico.
Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.
Modelo de reconocimiento de habla continua: algoritmo de reconocimiento.
Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.
Versión simplificada de un modelo de Markov para el reconocimiento de unidades.
Grabianowski, E. (2006, 10 de noviembre). How speech recognition works. Consultado en https://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm
Powell, V. (2014, 7 de noviembre). Markov chains explained visually. Consultado en http://setosa.io/ev/markov-chains/
Modelo de reconocimiento de habla continua: algoritmo de comprensión.
Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.
SLU, Spoken Language Understanding
En la comprensión del habla se requiere la integración de un sistema de reconocimiento automático del habla con un procedimiento de comprensión del lenguaje natural, de modo que el reconocedor puede aportar, por ejemplo, información prosódica que no se recoge en el texto escrito y el sistema de comprensión proporciona la información sintáctica y semántica.
❯ Identificación y verificación del locutor
ALI, Automatic Language Identification.
Determinación automática de la lengua utilizada por un determinado hablante.
El reconocimiento automático del habla