Los sistemas de diálogo
Esta página ha dejado de actualizarse
SLS, Spoken Language Systems.
SDS, Spoken Dialogue Systems.
CS, Conversational systems.
Los sistemas de diálogo tienen como objetivo facilitar la interacción natural mediante el habla entre una persona y un sistema informático.
Pueden enmarcarse en el campo de la comunicación entre personas y ordenadores (HCI, Human-Computer Interaction).
«Another kind of application of the speech-based interaction is the so-called Spoken Dialogue Systems (SDSs), also called
conversational systems, that can be defined as computer programs developed to provide specific services to human beings in the same way as if these services were provided by human beings, offering an interaction as natural and comfortable as possible, in which the user interacts using speech. It could be said that the main feature of these systems is their aim to behave ‘intelligently’ as if they were human operators in order to increase the speed, effectiveness and ease of obtaining specific services automatically» (p. 2).
Un sistema de diálogo ideal
- Reconoce el habla espontánea.
- Comprende enunciados sin restricciones de contenido.
- Proporciona respuestas con sentido, gramaticalmente bien formadas y pragmáticamente adecuadas.
- Responde con voz completamente natural.
- Es multimodal.
❯ Kubrick, S. (Director y productor). (1968). 2001: A space odyssey [Película]. United States: Metro-Goldwin-Mayer.
Limitaciones de los sistemas de diálogo
- Sujetos a las limitaciones del reconocimiento automático del habla.
- Comprensión y respuesta restringidas a dominios específicos.
- Condicionados por la naturalidad del habla sintetizada.
- Necesidad de estrategias de verificación.
- Problemas del diálogo espontáneo: elipsis, anáforas, deícticos.
❯ BASURDE, Sistema de diálogo oral en dominios restringidos
Tareas de un sistema de diálogo
- Reconocimiento de los enunciados del usuario.
- Gestión del diálogo.
- Análisis lingüístico (morfológico, sintáctico, semántico, pragmático) de los enunciados.
- Creación de una representación interna.
- Tratamiento de la representación interna en función de la tarea.
- Generación de secuencias de respuesta.
- Conversión de texto en habla.
Los sistemas de diálogo se diseñan con una estructura modular.
Cada módulo está especializado en una tarea.
López-Cózar, R. (2006). Análisis y gestión del diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 119–152). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
Minker, W. y Bennacef, S. (2001). Parole et dialogue homme-machine. Paris: Éditions Eyrolles – CNRS Éditions.
Roe, D. B. y Wilpon, J. G. (Eds.). (1994). Voice communication between humans and machines. https://doi.org/10.17226/2308
Módulo de reconocimiento del habla
Convierte la señal sonora de entrada —continua— en una representación escrita —discreta— de las palabras reconocidas.
Tecnologías del habla: Reconocimiento automático del habla (ASR, Automatic Speech Recognition).
Torres, M. I. (2006). El reconocimiento del habla. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 81–98). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
❯ El reconocimiento automático del habla
Módulo de interpretación semántica
Determina el “significado” (contenido) de la secuencia de palabras reconocida.
Procesamiento del lenguaje natural: Comprensión del lenguaje (NLU, Natural Language Understanding).
Eh, pues mire, quería saber a qué hora sale la… el último tren, eh… hacia Barcelona, desde Madrid, el sábado
PETICIÓN
DESTINO=“Barcelona”
ORIGEN=“Madrid”
FECHA:
DÍA=“28”
HORA=“Último”
Segarra, E. (2006). La interpretación semántica. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 99–118). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
Módulo de gestión del diálogo
Gestiona la interacción entre la persona y el sistema para la realización de la tarea deseada.
Módulo central de control en un sistema de diálogo.
- Coherencia entre la pregunta del usuario y la respuesta del sistema.
- Resolución de anáforas y elipsis.
- Predicción de las reacciones del usuario.
López-Cózar, R. (2006). Análisis y gestión del diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 119–152). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
Módulo de generación de lenguaje
Crea un enunciado bien formado a partir de la representación interna proporcionada por el sistema.
Procesamiento del lenguaje natural: Generación del lenguaje (NLG, Natural Language Generation).
PETICIÓN
DESTINO=“Barcelona”
ORIGEN=“Madrid”
Fecha:
DÍA=“28”
HORA=“Último”
El último tren sale a las 11 y 53 minutos de la noche
Lavid, J. (2006). La generación del lenguaje en los sistemas de diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 153–176). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
Módulo de conversión de texto en habla
Transforma en una señal sonora —continua— el texto creado por el módulo de generación de respuestas —discreto—.
Tecnologías del habla: Conversión de texto en habla (TTS, Tex-to-Speech Synthesis).
Bonafonte, A., Escudero, D. y Riera, M. (2006). La conversión de texto en habla. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 177–208). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
❯ La conversión de texto en habla.
Modelo del entorno
Modo de comunicación entre el usuario y el sistema.
Modo de comunicación: vocal, visual, auditiva o táctil.
Características específicas de cada modo: tiempo de procesamiento, disponibilidad, modalidad de entrada y salida.
❯ Los sistemas de diálogo multimodales
Modelo de la tarea
Especificación del objetivo de la tarea y de sus características específicas.
- Obtención de información.
- Transacciones.
- Negociación.
Discriminación de subdiálogos que no corresponden a la tarea.
Modelo del usuario
Tipología de usuarios
Características personales: edad, sexo, estado físico, nivel cultural, estatus social.
Experiencia del usuario con sistemas de comunicación entre personas y ordenadores.
Komatani, K., Ueno, S., Kawahara, T. y Okuno, H. G. (2003). User modeling in spoken dialogue systems for flexible guidance generation. En
Eurospeech 2003 – Interspeech 2003. Proceedings of the 8th European Conference on Speech Communication and Technology, 1–4 de septiembre de 2003 (pp. 745–748). Geneva, Switzerland. Consultado en
https://www.isca-speech.org/archive/eurospeech_2003/e03_0745.html
Modelo del usuario.
Niveles de conocimiento del usuario a la hora de utilizar sistemas de información automática.
Conocimiento del dominio de la aplicación por parte del usuario.
Grado de urgencia en la respuesta por parte del usuario.
Diseño del diálogo.
El sistema cambia la generación de respuestas.
Cuando el sistema detecta un usuario inexperto toma la iniciativa y no utiliza nunca un diálogo abierto.
Cuando el sistema detecta que el grado de urgencia es bajo solicita confirmación a las respuestas del usuario.
Para los usuarios que desconocen la ciudad, el sistema añade más explicaciones y no proporciona información adicional sobre otras rutas alternativas que podría utilizar el usuario.
Case:[skill level:low][knowledge level:low][hastiness:low]
S-: Please, tell me your current bus stop, your destination or the specific route number
U-: Maruyama Park
S-: Let me comfirm one by one
(la información se añade porque el sistema ha detectado [skill level:low])
Will you get on at Maruyama Park?
(la información se añade porque se ha detectado [hastiness:low])
Please reply with yes or no
(la información se añade porque el sistema ha detectado [skill level:low])
U-: Yes
S-: Where will you get off the bus?
Please specify by a bus stop name or a well-known landmark
(la información se añade porque el sistema ha detectado [skill level:low])
U-: Tofukuji Temple
S-: Will you get off the bus at Tofukuji Temple?
Please reply with yes or no
(la información se añade porque el sistema ha detectado [skill level:low])
U-: Yes
S-: The following buses are located
(la información se añade porque el sistema ha detectado [skill level:low])
The nearest bus stop to Maruyama Park is Gion
(la información se añade porque el sistema ha detectado [knowledge level:low])
Bus number 202 bound for Nishioji-kujo has departed…
Komatani, K., Ueno, S., Kawahara, T. y Okuno, H. G. (2003). User modeling in spoken dialogue systems for flexible guidance generation. En Eurospeech 2003 – Interspeech 2003. Proceedings of the 8th European Conference on Speech Communication and Technology, 1–4 de septiembre de 2003 (pp. 745–748). Geneva, Switzerland. Consultado en https://www.isca-speech.org/archive/eurospeech_2003/e03_0745.html
Objetivo de un modelo adaptado al usuario
Suprime la información redundante.
El sistema selecciona la estrategia de diálogo en función de las características del usuario.
Se incrementa la duración del diálogo para usuarios inexpertos, pero se agiliza el diálogo para usuarios expertos.
Bases de conocimiento
Existen bases de conocimiento asociadas a cada uno de los módulos de un sistema de diálogo.
- Léxico.
- Reglas.
- Modelos de lenguaje.
- Sistema.
- Tarea.
- Entorno.
- Historia del diálogo.
❯ Conocimiento prosódico en los sistemas de diálogo
Técnicas de diseño
Diseño a partir de la intuición
Determinación por parte del investigador de todas las posibles respuestas del sistema a una pregunta del usuario y de todas las posibles preguntas del usuario al sistema.
Problemas:
- Variabilidad de las preguntas y de las respuestas;
- Limitación de la clase de estructuras lingüísticas utilizadas por el usuario.
Utilizado en determinadas condiciones:
- Estructuración muy clara de la tarea;
- Introducción de frases determinadas previamente por parte del sistema;
- Las preguntas del sistema presuponen una determinada respuesta por parte del usuario.
Diseño a partir de corpus
Estudio de la interacción natural entre personas
Perspectiva lingüística.
Implica un análisis basado en la pragmática (especialmente en el estudio de los actos de habla) y en el análisis de la conversación.
Estudio de corpus con diálogos correspondientes a la tarea que debe realizar el sistema
Ayuda a la definición de vocabularios y modelos lingüísticos propios de una tarea específica.
Diferencias entre la interacción humana natural y la interacción entre personas y ordenadores.
<consulta de preus>
<trucada tallada>
<operadora><donar informació><línia>És R6<\línia>, el <bitllet>bitllet senzill<\bitllet> són <preu><número>sis-centes noranta<\número>pessetes<\preu><pausa>...<\donar informació>
<usuari dona><confirmació>Mhm<\confirmació>.
<operadora><donar informació>I el <bitllet>bitllet anada i tornada<\bitllet> <preu><número>mil vint-i-cinc<\número><\preu><\donar informació>.
<usuari dona><confirmació><desviació lingüística>Vale<\desviació lingüística><\confirmació>, gràcies, eh?
<operadora>A vostè. <comiat>Adéu, bon dia <\comiat>.
<usuari dona><comiat>Adéu <\comiat>.
<\consulta de preus>
Machuca, M. J., Bueno, L., Calonge, R., Estruch, M. y Riera, M. (2000, abril). Eines de reconeixement i prototip de conversa oral. Comunicació presentada a les Jornades del Centre de Referència en Enginyeria Lingüística (CREL), Institut d’Estudis Catalans, Barcelona.
Corpus persona-máquina
Diseño por simulación de una interacción entre una persona y un ordenador.
Protocolo del Mago de Oz (Wizard of Oz).
Simulación de la interacción en la que el papel del ordenador lo realiza una persona sin que lo sepa el interlocutor.
[usuari home]<salutació>Bon dia</salutació>.
[oz]Quin tipus de consulta desitja realitzar?
[usuari home]<demanar informació>Vull conèixer la durada del trajecte de <estació d’origen>Gràcia</estació d’origen> a <estació destí>Les Planes</estació destí></demanar informació>.
[oz]<confirmació explícita>M’està demanant informació de durada d’un trajecte</confirmació explícita>?
[usuari home]<confirmació>Sí</confirmació>.
Machuca, M. J., Bueno, L., Calonge, R., Estruch, M. y Riera, M. (2000, abril). Eines de reconeixement i prototip de conversa oral. Comunicació presentada a les Jornades del Centre de Referència en Enginyeria Lingüística (CREL), Barcelona.
Machuca, M. J. (2006). Corpus para el desarrollo de sistemas de diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 61–79). Bellaterra – Soria: Universitat Autònoma de Barcelona – Fundación Duques de Soria.
Sistemas de diálogo guiados
La interacción se realiza mediante alternancias cerradas entre pregunta y respuesta.
Restricción de las iniciativas del usuario.
Máquina: Bienvenido al servicio de información de nuestra empresa. Por favor, a continuación le vamos a ofrecer una serie de opciones de entre las cuales usted deberá elegir una. Le rogamos sea conciso en sus respuestas.
Si usted desea información de tipo A, diga A o pulse 1, si usted desea consultar el tipo B, diga B o pulse 2. ¿Qué desea?
Usuario: Disculpe, le llamo para realizar una consulta sobre xxxx.
M: Por favor elija una de las opciones mencionadas. Si usted desea información de tipo A, diga A o pulse 1, si usted desea consultar el tipo B, diga B o pulse 2. ¿Qué desea?
U: Ah, bueno, pues A.
M: Correcto, un momento por favor. Diga A o pulse 1, si desea que dicha información sea de este tipo, por favor diga B o pulse 2, si desea que sea de otro tipo.
U: B
M: La información solicitada es … Si desea realizar otra consulta, diga SI o pulse 1.
U: No (CUELGA).
Romero, B. (2004, julio). Coherencia en el diálogo. Conferencia impartida en el Curso de Tecnologías Lin- güísticas «Preguntar al ordenador: las aplicaciones de los sistemas de diálogo», Soria.
Gracias por llamar al Instituto Psiquiátrico Provincial:
Si usted es obsesivo-compulsivo, presione repetidamente el número 1.
Si usted es codependiente, pídale a alguien que presione el número 2 por usted.
Si usted tiene múltiples personalidades, presione el 3, 4, 5 y 6.
Si usted es paranoico, nosotros ya sabemos quien es usted, sabemos lo que hace y sabemos lo que quiere, espere en línea mientras rastreamos su llamada.
Si usted sufre de alucinaciones, presione el 7 en ese teléfono que Ud. (y solo Ud.) ve al final del cable del tubo.
Si usted es esquizofrénico, escuche cuidadosamente y una pequeña voz interior le indicará qué número presionar.
Si usted es depresivo, no importa qué número marque. Nada conseguirá sacarle de su lamentable situación.
Si usted sufre de amnesia, presione 8 y diga en voz alta su nombre, dirección, teléfonos, y el apellido de soltera de su abuela materna.
Si usted sufre de indecisión, deje su mensaje después de escuchar el tono… o antes del tono… o después del tono… o durante el tono. En todo caso, espere el tono.
Si tiene la autoestima baja, por favor cuelgue. Todos nuestros operadores están atendiendo a personas más importantes que usted.
Sistemas de diálogo cooperativos
Aceptan las interrupciones y negociaciones por parte del usuario.
Reparto equilibrado del turno de palabra.
Incorporación de mecanismos de detección de incoherencias gramaticales.
Sistemas de diálogo adaptativos
El sistema es capaz de aprender nuevas estrategias comunicativas en función del comportamiento del usuario.
❯ La incorporación de las emociones a los sistemas de diálogo
Dale, R. (2003, julio). Next-generation spoken language dialog systems. Sydney.
Mejoras en la tecnología y áreas en las que se producirán avances.
- Prosodia.
- Emociones.
- Pragmática.
- Mejoras en el procesamiento de señales.
- Nuevas aplicaciones.
Mejoras en la conversión de texto en habla
Mayor calidad de la síntesis.
Síntesis guiada por el objetivo o por la función del enunciado.
Mejoras en la asignación de pausas, en el fraseo y en la prosodia
Incorporación de emociones.
Introducción de la síntesis a partir de conceptos substituyendo la conversión de texto en habla.
Mejoras en las herramientas
Desarrollo de plantillas y de asistentes para la creación de sistemas a partir de lenguajes como VoiceXML.
VoiceXML Forum
Ayuda para incorporar las mejores prácticas en el diseño.
Romero, B. (2004, julio). Coherencia en el diálogo. Conferencia impartida en el Curso de Tecnologías Lin- güísticas «Preguntar al ordenador: las aplicaciones de los sistemas de diálogo», Soria.
Partir del conocimiento del entorno que se desea abordar.
Introducción paulatina de automatismos.
Respuesta a necesidades sociolingüísticas.
Elección del locutor.
Diseño claro, autoexplicativo y ágil.
Mismas reglas interpretativas que en la conversación entre personas.
Martín, C. (2004, julio). Usabilidad en aplicaciones vocales. Conferencia impartida en el Curso de Tecnologías Lingüísticas «Preguntar al ordenador: las aplicaciones de los sistemas de diálogo», Soria.
Diseño centrado en el usuario.
Diseño para la mayoría.
El sistema trabaja para el usuario.
Conocimiento de los límites.
Simplicidad.
Consistencia.
Mejoras en la identificación del locutor
Identificación a partir del habla.
Reconocimiento automático del habla adaptado al perfil del locutor.
Posibilidad de tratar varios hablantes en varias situaciones.
Mejoras en el procesamiento del lenguaje natural
Basado en principios lingüísticos más amplios (frente a las actuales correspondencias entre enunciados y patrones).
Sistemas reutilizables (frente a los actuales sistemas ad hoc).
Sistemas más robustos.
Sistemas multimodales
Integración de habla, texto y gráficos.
Integración del tacto con el habla.
Reconocimiento de expresiones faciales.
❯ Sistemas de diálogo multimodales
Aplicaciones integradas
Reconocimiento y síntesis habla en asistentes digitales personales, vehículos, electrodomésticos, etc.
Entornos inteligentes: inteligencia ambiental.
Respuestas inteligentes
Resumen automático de información compleja procedente de diversas fuentes usando técnicas de Generación del Lenguaje Natural.
Incorporación de razonamiento y planificación de respuestas.
Sistemas multilingües
Identificación automática de la lengua del usuario.
Traducción automática del habla.
Reconocimiento de grandes vocabularios
Combinación de vocabulario ilimitado, independencia del locutor y reconocimiento del habla continua.
Tareas de dictado y de recuperación de información a partir de archivos sonoros.
Interfaces conversacionales
Necesidad de realismo frente a las expectativas creadas en los usuarios.
Tecnologías
Tecnologías del habla
Reconocimiento automático del habla.
Conversión de texto en habla.
Procesamiento del lenguaje natural
Comprensión del lenguaje natural.
Generación de lenguaje natural.
Gestión del diálogo
Conocimiento
Pragmática
Modelado y gestión de diálogo.
Fonética
Información fonética en el reconocimiento de habla y en la conversión de texto en habla.
Morfología, léxico, semántica y sintaxis
Comprensión del lenguaje.
Generación del lenguaje.
Psicología, ergonomía y ciencia cognitiva
Interfaz con el usuario.
Multimodalidad.
Emociones.
Evaluación subjetiva.
Los sistemas de diálogo
Los sistemas de diálogo
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La pàgina va ser modificada per darrera vegada el Esta página ha dejado de actualizarse