Las unidades de síntesis
Esta página ha dejado de actualizarse
Selección de unidades (unit selection) de longitud variable (non-uniform) previamente recogidas en un corpus.
Utilizadas en los sistemas de grabación-reproducción.
Ofrecen una calidad alta.
Requisitos de memoria elevados.
Requieren una prosodia adecuada al mensaje en el que se insertan.
Usadas preferentemente en los sistemas de síntesis por concatenación de unidades.
Fragmento de sílaba comprendido entre su inicio y el centro de la vocal o entre el centro de la vocal y su final.
Minimiza los efectos de la coarticulación.
Segmento acústico que incluye la transición entre dos fonos consecutivos, formado por la parte estacionaria del primero, la transición del primero al segundo y la parte estacionaria del segundo.
Etiquetado y alineación de fonos, de difonos y de palabras en el fragmento “el año”, realizado mediante el programa Praat.
Minimiza los efectos de la coarticulación.
Unidades utilizadas preferentemente en los sistemas de síntesis por reglas.
Inventario reducido para cada lengua.
Degradación de la calidad producida por los problemas de concatenación.
Obligan a generar la prosodia artificialmente.
Fragmento de la señal acústica que presenta características uniformes (transición, segmento estacionario).
Tipo de unidad | Número de unidades | Total en Kbyte |
Fonema | 29 | 0.174 |
Alófono | 100 | 0.6 |
Difonema | 500 | 15 |
Semisílaba | 2000 | 96 |
Morfema | 10000 | 1800 |
Valoración aproximada de la base de datos LPC para la síntesis del castellano según el tipo de unidades de síntesis.
Martí, J. (1991). El dilema simplificación-calidad en conversores texto-voz. En Simposio de la lengua española. Ciencia y tecnología, 7–11 de octubre de 1991, Barcelona.
En la conversión de texto en habla suelen utilizarse unidades como el difonema, el trifonema o o el cuatrifonema.
Establecimiento del inventario completo de unidades que se utilizan para una lengua determinada.
Voz adecuada para la técnica de síntesis utilizada.
Buen lector.
Pruebas de síntesis y evaluación por potenciales usuarios.
Selección de contextos para la inclusión de las unidades.
Integración de las unidades en frases.
Segmentación manual frente a segmentación automática.
Pruebas de síntesis y evaluación por potenciales usuarios.
Dixon y Maxey (1968): síntesis por formantes mediante concatenación de difonemas [Klatt, 1987, (18)].
Klatt, D. H. (1987). Review of text-to-speech conversion for English. The Journal of the Acoustical Society of America, 82(3), 737–793. https://doi.org/10.1121/1.395275. Ejemplo extraído de Gilbert, J. y Fosler, E. (1997). Klatt Audio Scribe Notes for EE225d. Consultado en http://www1.icsi.berkeley.edu/eecs225d/klatt.html
Olive (1977): concatenación de difonemas codificados mediante predicción lineal [Klatt, 1987, (22)].
Klatt, D. H. (1987). Review of text-to-speech conversion for English. The Journal of the Acoustical Society of America, 82(3), 737–793. https://doi.org/10.1121/1.395275. Ejemplo extraído de Gilbert, J. y Fosler, E. (1997). Klatt Audio Scribe Notes for EE225d. Consultado en http://www1.icsi.berkeley.edu/eecs225d/klatt.html
Echo (1982): sistema de concatenación de difonemas de bajo coste [Klatt, 1987, (29)].
Klatt, D. H. (1987). Review of text-to-speech conversion for English. The Journal of the Acoustical Society of America, 82(3), 737–793. https://doi.org/10.1121/1.395275. Ejemplo extraído de Gilbert, J. y Fosler, E. (1997). Klatt Audio Scribe Notes for EE225d. Consultado en http://www1.icsi.berkeley.edu/eecs225d/klatt.html
Browman (1980): concatenación de semisílabas codificadas por predicción lineal [Klatt, 1987, (23)].
Klatt, D. H. (1987). Review of text-to-speech conversion for English. The Journal of the Acoustical Society of America, 82(3), 737–793. https://doi.org/10.1121/1.395275. Ejemplo extraído de Gilbert, J. y Fosler, E. (1997). Klatt Audio Scribe Notes for EE225d. Consultado en http://www1.icsi.berkeley.edu/eecs225d/klatt.html