Corpus orales
Joaquim Llisterri
Escuela Interlatina de Altos
Estudios de Lingüística Aplicada
Lexicografía y
tecnologías de la lengua: situación y perspectiva de las
lenguas románicas
San Millán de la Cogolla, La Rioja,
3-9 de septiembre de 1995
Caracterización de los
corpus orales
Contenido
lingüístico
- Sonidos aislados
- Palabras aisladas - con sentido o sin sentido
pero fonológicamente posibles
- Frases aisladas
- Frases marco o
portadoras
- Frases fonéticamente equilibradas
- Frases fonéticamente ricas
- Fragmentos de textos o
textos
- Dígitos, números conectados,
secuencias alfanuméricas, letras, palabras
deletreadas
- Habla espontánea preparada: tareas
específicas
- Habla espontánea no preparada
Características
lingüísticas
- Producción oral espontánea
vs. texto escrito editado
- Información presente en la lengua
hablada vs. información presente en
el texto escrito
- Estilo de habla
- Lectura vs.
Producción ± espontánea
- ± Preparado - No preparado
- Formal - Cuidado - Informal -
Descuidado
Datos
- Señal acústica
- Datos articulatorios
- Imágenes
Número de hablantes
EAGLES (1995)
1-5
hablantes
- Investigación en
fonética; desarrollo de sistemas de
síntesis
5-50
hablantes
- Investigación en
fonética; desarrollo de sistemas de
reconocimiento
más de 50 hablantes
- Entrenamiento y
verificación de sistemas de reconocimiento
independientes del locutor
Características de los
hablantes
Características relativamente
estables
Características
fisiológicas y anatómicas
- Sexo
- Edad
- Peso y altura
- Hábitos relacionados con el tabaco y la
bebida
- Patologías
Características
geográficas
Características
sociolingüísticas
Locutores profesionales vs. no
profesionales
Características
transitorias
- Alteraciones
del aparato fonador
- Condiciones físicas generales
- Estrés
- Estado emotivo
Entorno de
adquisición
Entorno acústicamente
controlado
- Cámara
anecoica
- Sala insonorizada
Entorno
natural: la paradoja del observador;
problemas técnicos de grabación
Grabación telefónica
Grabaciones de medios de
comunicación
Ruido ambiental o añadido (efecto
Lombard)
Procedimiento de recogida de datos
- Lectura
- Tareas específicas: tarea del mapa;
juego de los siete errores
- Diálogo simulado con un sistema:
paradigma del Mago de Oz
- Entrevistas ± dirigidas con ± familiaridad con
el entrevistador
- Micrófono oculto
Tipo de representación
- Señal sonora continua -
representación ortográfica
discreta
- Representación fonética
variable - representación
ortográfica invariable
Tipo de transcripción y de
anotación
Transcripción
- Transcripción
ortográfica
- Transcripción fonémica
(transcripción ancha; transcripción
sistemática; transcripción
fonotípica)
- Transcripción alofónica
(transcripción sistemática)
- Transcripción fonética
(transcripción estrecha)
- Transcripción prosódica
Anotación
- Morfosintáctica
- Sintáctica
- Semántica
- Pragmática
Objetivos
de los corpus orales
Corpus para la descripción
fonética
Niveles de descripción
- Descripción
articulatoria:técnicas
específicas de adquisición de
datos
- Descripción
acústica: entorno de adquisición
controlado
- Análisis segmental:
transcripción fonética segmental
- Análisis suprasegmental:
transcripción prosódica
Corpus
unilingües
Corpus para la descripción
fonética comparada
Corpus para aplicaciones a sistemas de
tecnología del habla
Corpus para el desarrollo de aplicaciones
generales
Síntesis del habla
- Extracción de
inventarios de unidades de síntesis
- Modelos de concatenación de unidades
- Modelos prosódicos
- Variedad de voces
- Variedad de estilos
Reconocimiento del habla
- Modelos de unidades de
reconocimiento
- Modelos de lenguaje
- Diccionario
- Modelo de la variación inter e
intralocutor
- Entrenamiento del sistema
- Verificación del sistema
Corpus para
el desarrollo de aplicaciones
específicas
Sistemas de
diálogo
- Corpus de
diálogos hombre-máquina (paradigma
del Mago de Oz; system in the
loop)
Identificación y
verificación de locutores
- En sistemas
automáticos
- En contextos forenses
Aplicaciones
telefónicas
Corpus para
el estudio de la lengua oral
Corpus para la descripción general de
la lengua
- Descripción de los diversos
niveles del análisis
lingüístico:
fonológico,
morfológico, sintáctico,
semántico, pragmático,
léxico
Corpus para
aplicaciones específicas
Análisis del discurso y de la
conversación
Sociolingüística
- Análisis
de aparición de fenómenos
lingüísticos en función de
variables sociolingüísticas
- Variación geográfica
Psicolingüística
- Producción
del habla espontánea
- Errores de actuación
Adquisición de la lengua
- Estudios longitudinales
- Comparación interlingüística
Patología del habla
Adquisición de segundas lenguas y
bilingüismo
- Interferencia
lingüística
- Proceso de adquisición y
caracterización de la interlengua
- Cambios de código
Lexicografía
computacional
Léxico de
lengua oral (Spoken Language
Lexicon)
Características
- Lista de representaciones de entradas
léxicas consistente en palabras
extraídas de un corpus de lengua oral
emparejadas con otras propiedades léxicas
(EAGLES, 1995)
- Basada en la forma flexionada de las palabras
- basada en una forma canónica o
en raÌces
- Unidades adicionales: fenómenos de
duda, secuencias que funcionan como una unidad
fonológica (clíticos)
Información sobre pronunciación
canónica y variantes, propiedades
prosódicas, estructura morfológica
y propiedades estadísticas vs.
información distribucional y
semántica
Aplicaciones
- Reconocimiento del habla: reconocedor de
palabras para la identificación de la
forma de las palabras; modelo de lenguaje
incluyendo propiedades estadísticas
- Síntesis del habla: definición
de la estructura morfológica de las
palabras; propiedades prosódicas;
diccionario de pronunciación incluyendo la
forma canónica con variantes derivadas por
reglas
La
transcripción ortográfica de la
lengua oral
El análisis del discurso y de la
conversación
Propuestas de enriquecimiento de
la transcripción ortográfica con
marcas relacionadas con información que
responda a los objetivos del corpus (Du Bois (1993), Gumperz & Berenz
(1993)
La lingüística de corpus
Las propuestas de TEI (Text Encoding
Initiative) (Johansson, 1995)
Las
propuestas de NERC (Network of European
Reference Corpora) (Baker, Francis & Tognini-Bonelli (Eds.),
1994)
Sistemas de transcripción
Sistemas de
transcripción en lingüística
de corpus (Leech,
Myers & Thomas (Eds.), 1995)
LLC,
London-Lund Corpus (1975)
- Transcripción prosódica
informatizada
(Peppé, 1995)
ICE, International Corpus of
English (1988-)
- Transcripción de lengua oral
(Nelson, 1995)
COBUILD Spoken Corpus (1992)
- Transcripción de lengua oral
(French, 1992; Payne, 1995)
BNC, British National Corpus
(1993)
- Transcripción de lengua oral
(Crowdy, 1995)
MARSEC, Machine Readable Spoken
English Corpus (1994)
- Base de datos relacional con
codificación prosódica
P. Roach, Reading & G. Knowles, Leeds
(Knowles, 1995)
SUSANNE
- Transcripción de lengua oral
(Sampson, 1994)
Sistemas de transcripción en tecnologías del
habla
LRE SpeechDat (Spoken Language
Resources) (1994-1995)
Propuesta de
transcripción (L. Boves & E. den Os,
SPEX) basada en la transcripción de ATIS
(Air Travel Information System)
(LDC/ARPA)
Transcripción ortográfica y
léxica con información sobre
elementos acústicos audibles
lingüísticos y no
lingüísticos
Elementos obligatorios y optativos en la
transcripción
- Mayúsculas
y minúsculas: sólo
minúsculas excepto nombre propios y
palabras deletreadas
- Ortografía: basada en un diccionario de
referencia, acompañada de una lista de
formas utilizadas en casos de variación
- Abreviaturas: transcritas de forma completa
cuando esta forma exista
- Secuencias de números: transcritas tal
como han sido pronunciadas
- Secuencias de letras: en mayúsculas
cuando se trata de una palabra deletreada
- Puntuación: sin transcripción de
la puntuación
- Errores de producción: las palabras con
error se marcan con un asterisco al principio
- Secuencias ininteligibles: marcadas con dos
asteriscos
- Palabras truncadas: marcadas con un asterisco
en el punto donde se trunca la palabra
- Correcciones implícita o
explícitamente realizadas por el hablante:
se transcribe la secuencia emitida por el
hablante; optativamente pueden indicarse las
palabras corregidas entre < >
- Elementos no verbales
- Pausas llenas y de duda: lista de
formas
- Emisiones no verbales producidas por el
hablante: descripción entre corchetes
utilizando _ cuando consta de más de una
palabra
- Otros elementos no verbales:
descripción entre corchetes utilizando _
cuando consta de más de una palabra
- Alargamiento: marcado optativamente con
:
- Pausas silenciosas: marcadas optativamente con
.
EAGLES
Spoken Language Working Group,
Handbook (1995)
Transcripción
ortográfica
- Incluye la forma
ortográfica de los enunciados realmente
producidos por el hablante
- Inventario de formas reducidas y de formas
canónicas
Transcripción fonémica o
transcripción de las formas
canónicas aisladas
- Conversión
de la forma ortográfica en una cadena de
fonemas
- Generación automática mediante
diccionario o mediante reglas de
conversión de grafema a fonema
Transcripción fonética o
transcripción fonotípica
- Incluye los
fenómenos fonéticos
sistemáticos propios del habla continua
Generación automática mediante
reglas fonológicas
Transcripción fonética
estrecha
- Refleja las
características fonéticas
detalladas de los enunciados producidos por un
hablante
- Procedimiento manual a partir del
análisis de la onda sonora
Transcripción
acústico-fonética
- Segmentación y etiquetado
de elementos acústicos presentes en la
onda sonora
Transcripción
prosódica
- Transcripción auditiva
- Transcripción basada en los movimientos
de F0
Fenómenos no
lingüísticos
- Omisiones
respecto al texto leído
- Correcciones explícitamente indicadas
por el hablante, tanto en lectura como en habla
espontánea
- Palabras truncadas
- Palabras y partes de palabras no
inteligibles
- Expresiones de duda y pausas llenas
- Elementos acústicos no verbales
producidos por el hablante y externos al
hablante
- Simultaneidad en la emisión de dos
hablantes
- Turnos de palabra
Información sobre el proceso de
transcripción
Los corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
https://joaquimllisterri.cat/language_resources/SanMillan95/SMillan_95.html
La pàgina va ser modificada per darrera vegada el 09/09/95
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.