Introducción
Niveles de representación
Representación ortográfica de corpus orales
Representación fonética de corpus orales
Etiquetado fonético de corpus orales
Transcripción y codificación de corpus para el estudio de la lengua oral
Conclusiones
Como primer nivel de representación abordamos la transcripción ortográfica, para pasar a continuación a un segundo nivel, el de la representación fonética, tanto en el aspecto segmental como en el suprasegmental. En este mismo nivel planteamos la cuestión del etiquetado que, asociado a otras operaciones como la segmentación y la alineación temporal, permite una utilización posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones específicamente centradas en la transcripción y codificación de los corpus constituidos por transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en España. Hemos intentado, para cada nivel de representación, ofrecer información sobre algunas de las convenciones desarrolladas y presentar las que llevan camino de convertirse - o se han convertido ya - en estándares. Sin embargo, como se indica en las conclusiones, parece razonable insistir en la noción de compatibilidad entre sistemas como modo de resolver la inevitable tensión entre los requisitos específicos del investigador y las necesidades del intercambio de recursos.
Para cada nivel de representación suele establecerse un conjunto de «etiquetas» que se asocian a un determinado fragmento del corpus - un segmento sonoro, una unidad prosódica, una palabra, etc. - y definen sus propiedades. Las etiquetas propias de un nivel fonético de representación corresponden a las características articulatorias o acústicas de los sonidos del habla, mientras que, por ejemplo, las etiquetas de un nivel de representación morfosintáctico describen propiedades morfológicas y léxicas de las palabras. El etiquetado constituye, por tanto, un enriquecimiento del corpus mediante información adicional introducida por el investigador en función de sus objetivos y, lo que es más importante, de su interpretación lingüística de los materiales recogidos. El establecimiento del inventario de etiquetas - estrechamente relacionado con los fenómenos que desean anotarse en un corpus - y las características que se señalan con cada una de ellas no es en absoluto una tarea trivial, especialmente si pretenden utilizarse en proyectos multilingües cubriendo simultáneamente las necesidades de varias lenguas.
Finalmente, es preciso definir, en el proceso de creación de recursos lingüísticos, un sistema o esquema de codificación tanto de los fenómenos representados en los diferentes niveles del corpus como de sus correspondientes etiquetas. La codificación constituye pues, tal como se concibe en la actualidad, una herramienta que dota al corpus de una estructura. Un esquema de codificación adecuado permite, entre otras cosas, mantener una distinción entre los datos y su forma de representación, que es útil cuando se requiere el intercambio de corpus o su reutilización en otros proyectos. Por ello es esencial, a la hora de diseñar tal esquema, considerar sistemas que cumplan este requisito.
En el caso de un corpus oral, el primer nivel de representación necesario es el de la transcripción. Esto responde a la exigencia de materializar o fijar de alguna manera la información lingüística y comunicativa presente en una onda sonora esencialmente transitoria. Tal como la caracteriza Payrató (1995:45), la transcripción es «un procedimiento de traslado o transposición a una forma gráfica (escrita) de una producción (lingüística, discursiva) originariamente oral». Atendiendo a esta definición, podemos referirnos tanto a la transcripción ortográfica - denominada «transliteración» por algunos autores -como a la transcripción fonética, que se lleva a cabo mediante un conjunto de símbolos especialmente diseñados para tal fin. En los apartados que siguen centraremos nuestra atención en estos dos niveles de representación, el ortográfico y el fonético, considerando también algunos aspectos relativos al etiquetado en el nivel fonético.
«The degree of phonetic detail given in speech transcription varies from none to a very precise phonetic or phonemic transcription . . . Where there is a great deal of phonetic or phonemic detail, it will be more convenient to design a specialized writing system»Evidentemente, hay casos en los que el objeto de la investigación no requiere la utilización de un sistema de transcripción fonética, pero cuando es necesario disponer de un «sistema especializado de escritura» el AFI (Alfabeto Fonético Internacional) aparece como el primer candidato para cubrir las necesidades de la investigación, siendo igualmente el sistema recomendado tanto por la TEI (Sperberg-McQueen y Burnard (Eds.), 1994) como por el Grupo de Trabajo sobre Textos Orales de EAGLES (EAGLES, 1996). Sin embargo, cuando se requiere el intercambio electrónico de textos, SAMPA (SAM Phonetic Alphabet) - considerado como una versión informática de parte del AFI (EAGLES, 1995) - se presenta como una opción válida especialmente en lo que se refiere a las lengua europeas y si se requiere una transcripción de carácter fonológico. Existe una extensión de SAMPA (X-SAMPA) que ofrece los elementos del AFI inexistentes en SAMPA y que, por lo tanto, puede considerarse como un sistema adecuado para la transcripción de corpus orales (EAGLES, 1996). Por otra parte, cabe considerar también Wordlbet como una alternativa cuando la naturaleza del corpus aconseje disponer de un sistema más detallado. Estos sistemas, comúnmente utilizados en la transcripción de corpus orales desarrollados en el ámbito de la fonética y las tecnologías del habla, se presentan someramente a continuación. Dada la diversidad de sistemas existentes, parece clara la conveniencia de desarrollar mecanismos que permitan la compatibilidad, asegurando la fácil traducción de una representación a otra, de modo que diferentes investigadores puedan hacer uso de corpus ya transcritos fonéticamente, incorporándolos a su propio entorno de trabajo.
SAMPA se basa en un conjunto de equivalencias entre símbolos del AFI y códigos ASCII, restringiéndose al uso de caracteres de 7 bits (códigos 32 a 127). El principio que rige las transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonológico, empleándose únicamente símbolos distintos en el caso de segmentos con valor diferencial. Esta filosofía viene motivada por tres razones: simplicidad de la transcripción sin incorporar ambigüedades, ya que las realizaciones alofónicas son predictibles a partir del contexto; facilidad de utilización por parte personas con poca formación en fonética; y falta de códigos ASCII para la transcripción alofónica de todas las lenguas. Sin embargo, en algunos casos, se introducen símbolos para la representación de alófonos cuando los investigadores que han desarrollado las adaptaciones para cada lengua lo han considerado necesario.
La realización de la versión española del corpus EUROM en el marco del proyecto ESPRIT 6819 SAM-A llevó a la adaptación española de SAMPA (Mariño y Llisterri, 1993) tal como se presenta a continuación, y al desarrollo de un programa de transcripción fonética automática basada en este alfabeto que permitiera la generación automática de la representación fonética del corpus a partir de los textos escritos leídos por los informantes. En la siguiente tabla, tomada de Wells (1995) se ofrecen los símbolos de transcripción de SAMPA utilizados en español.
SAMPA | Ejemplo | Ejemplo transcrito |
p | padre | "paDre |
b | vino | "bino |
t | tomo | "tomo |
d | donde | "donde |
k | casa | "kasa |
g | gata | "gata |
tS | mucho | "mutSo |
jj | hielo | "jjelo |
f | fácil | "faTil |
B | cabra | "kaBra
(= /b/) |
T | cinco | "Tinko |
D | nada | "naDa
(= /d/) |
s | sala | "sala |
x | mujer | mu"xer |
G | luego | "lweGo
(= /ɡ/) |
m | mismo | "mismo |
n | nunca | "nunka |
J | año | "aJo |
l | lejos | "lexos |
L | caballo | ka"baLo
(o como jj) |
r | puro | "puro |
rr | torre | "torre |
j | rey
pie |
rrej
pje |
w | deuda | "dewDa |
i | pico | "piko |
e | pero | "pero |
a | valle | "baLe |
o | toro | "toro |
u | duro | "duro |
Tabla 1: Símbolos de SAMPA (SAM Phonetic Alphabet) para la transcripción del español (Wells, 1995)
SAMPA es el alfabeto fonético utilizado en el proyecto ALBAYZÍN, cuyo objetivo es la constitución de tres bases de datos orales diseñadas para el entrenamiento y la evaluación de sistemas de reconocimiento del habla y para estudios fonéticos (Casacuberta et al., 1992; Moreno et al., 1993); tal como sucede en el caso de otras lenguas, podría, previsiblemente, convertirse en el estándar para la transcripción de corpus orales en español cuando el nivel de transcripción requerido responda al diseño de SAMPA que, como se ha indicado, constituye un alfabeto de naturaleza fonológica adecuado para una transcripción ancha. Este podría ser el caso de los corpus para aplicaciones a las tecnologías del habla y, en este mismo contexto, SAMPA constituye la base - en algunos casos con modificaciones - de las representaciones generadas por los algoritmos de transcripción fonética automática desarrollados para diversos sistemas de conversión de texto a habla en español.
Worldbet | Ejemplo | Ejemplo transcrito |
p | punto | p u n t o |
b | baños | b a n~ o s |
t | tino | t i n o |
d | donde | d o n d e |
k | casa | k a s a |
g | ganga | g a N g a |
V | haba | a V a |
f | falda | f a l d a |
s | casa | k a s a |
z | mismo | m i z m o |
T | luces | l u T e s |
D | dedo | d e D o |
x | jamás | x a m a s |
G | lago | l a G o |
tS | chato | t S a t o |
dZ | un yugo | dZ u G o |
m | mano | m a n o |
n | nada | n a D a |
n~ | baño | b a n~ o |
N | banco | b a N k o |
l | lado | l a D o |
L | pollo | p o L o |
r( | pero | p e r( o |
r | perro | p e r o |
j | mayo | m a j o |
w | cuento | k w e n t o |
i | piso | p i s o |
e | mesa | m e s a |
a | caso | k a s o |
o | modo | m o D o |
u | cura | k u r( a |
Tabla 2: Símbolos de Worldbet para la transcripción del español (Hyeronimus, 1994)
La transcripción alofónica puede llevarse a cabo sin dificultades recurriendo al inventario completo de símbolos de Worldbet presentado en Hyeronimus (1994). Por ejemplo, es posible especificar el carácter dental de [t] y [d] mediante el uso de los símbolos [t[] y [d[] respectivamente, la fricativa dental sonora mediante [z], la fricativa palatal sorda con [Z] y su equivalente sonoro con [s_j], así como los alófonos reducidos (laxos) de las vocales mediante [Ix], [E], [&] o las aspiraciones utilizando [hs] (Lander, 1997).
Transcripción de variantes geográficas
Sin embargo, una transcripción de base fonológica como la planteada en SAMPA no es, evidentemente, apta para cubrir todas las necesidades de la investigación lingüística. Por este motivo, en corpus informatizados como el recogido en el proyecto de investigación de las Variedades Vernáculas Malagueñas (Alvar y Villena (Coords.), 1994) se ha adoptado un sistema de transcripción basado en la adaptación del sistema de la RFE al ALEA (Atlas Lingüístico y Etnográfico de Andalucía). En este proyecto se utiliza un entorno de transcripción asistida que permite al investigador, mediante el uso de macros, crear símbolos fonéticos rasgo a rasgo, introduciendo cuantos diacríticos sean necesarios (León, 1994). Con ello es posible realizar una transcripción estrecha de las hablas meridionales que responde a los objetivos planteados para el corpus. El procedimiento de transcripción asistida constituye la base de un futuro método de transcripción fonética automática por reglas de textos orales transliterados, en el que se contempla la utilización de SAMPA para la transcripción ancha, manteniendo el alfabeto fonético del ALEA para la transcripción estrecha (León y Sánchez, 1996).Transcripción de diccionarios electrónicos
Un alfabeto fonético apto para ser utilizado en soportes digitales es también una herramienta indispensable en la transcripción fonética de diccionarios electrónicos como, por ejemplo, el Sistema de Diccionarios Electrónicos del Español . En el marco de este proyecto se lleva a cabo la transcripción automática de una base de datos léxica que permite establecer de forma sistemática las irregularidades ortográficas y que constituye la base para la realización de un diccionario de pronunciación aplicable a las tecnologías del habla (Ríos, 1993, 1994).En el momento de plantearse la selección de un sistema de transcripción prosódica adecuado a un corpus oral el investigador se enfrenta nuevamente a la diversidad de sistemas, al igual que sucede en el caso de la transcripción segmental. Aunque, como veremos más adelante, ToBI parece que se está convirtiendo rápidamente en un estándar a pesar de su orientación hacia la transcripción del inglés y del modelo fonológico subyacente, SAMPROSA ofrece la ventaja de haberse desarrollado teniendo en cuenta las necesidades de la fonética y de las tecnologías del habla; además, SAMPROSA se enmarca en el contexto de estándares extendidos en Europa como los del proyecto SAM, recomendados, por ejemplo, por NERC (Teubert, 1993; Sinclair, 1994). En conjunto, el sistema ideal de transcripción prosódica debería permitir una representación en varios niveles, ser compatible con el intercambio electrónico de datos y cubrir las necesidades del mayor número de lenguas posible, pudiendo aplicarse automáticamente en lugar de basarse en las impresiones intuitivas del transcriptor, con vistas a la transcripción de grandes corpus. En ausencia de un sistema que reúna tales características, parece adecuado establecer mecanismos de compatibilidad entre los existentes a fin de facilitar la reutilización de los datos.
PROSPA fue originalmente concebido por Selting y Gibbon (Selting, 1987, 1988) para el análisis de la conversación y del discurso y, por tal motivo, se basa en criterios auditivos y recoge únicamente los elementos necesarios para este fin. Por su parte, SAMSINT (SAM System for Intonation Transcription) se plantea como objetivo la transcripción de contornos melódicos en el interior de unidades entonativas, basándose en INTSINT (cf. 4.2.2.4.) con algunas modificaciones adicionales.
SAMPROSA | ASCII | Definition |
Local tone | ||
H | 72 | High pitch |
L | 76 | Low pitch |
T | 84 | Top pitch (extreme H) |
B | 66 | Bottom pitch (extreme L) |
M | 77 | Mid pitch |
+ | 43 | Higher pitch |
++ | 43,43 | Much higher pitch |
+- | 43,45 | Peak (upward-downward) |
- | 45 | Lower pitch |
-- | 45,45 | Much lower pitch |
-+ | 45,43 | Trough (downward-upward) |
^ | 94 | Upstep |
^^ | 94,94 | Wide upstep |
! | 33 | Downstep |
!! | 33,33 | Wide downstep |
= or > or S | 61 62 or 83 | Level or same tone |
Global tone: from Local and Nuclear tone repertoire | ||
Terminal tone: from Local and Nuclear tone repertoire | ||
Nuclear tone | ||
- | 45 | Level tone (before tone group boundary) |
' or / or R | 39 47 or 82 | Rising tone |
` or \ or F | 96 92 or 70 | Falling tone |
`' (etc.) | 96,39 (etc.) | Fall-rise |
'` (etc.) | 39,96 (etc.) | Rise-fall |
Length | ||
: | 58 | Segment length mark |
Stress | ||
" | 34 | Primary stress |
% | 37 | Secondary stress |
Pause | ||
... | 46,46,46 | Silence |
Boundary | ||
$ | 36 | Syllable boundary |
# | 35 | Word boundary |
| | 124 | Tone group boundary (non-directional) |
[ | 91 | Tone group boundary (left) |
] | 93 | Tone group boundary (right) |
Metasymbols | ||
- | 45 | Separator (the underscore, _, ASCII 95, may replace this owing to ambiguity with level tone) |
* | 42 | Conjunctor |
Tabla 3: SAMPROSA (SAM Prosodic Alphabet)(Wells, 1995)
SAMPROSA ofrece pues, al igual que SAMPA, un conjunto de caracteres correspondientes a códigos ASCII, mediante los cuales es posible transcribir tonos globales, locales, terminales y nucleares, la duración, el acento, la pausas y las fronteras entre unidades prosódicas. Aunque, como puede observarse, presenta rasgos característicos de la tradición británica de análisis de la entonación como la codificación de tonos nucleares, es un sistema que se plantea como adecuado para la transcripción de diversas lenguas.
Una transcripción utilizando ToBI consta de cuatro niveles:
Las críticas que se realizan más frecuentemente a ToBI son, por una parte, su dependencia del modelo fonológico desarrollado por Pierrehumbert (1980) y, por otra, su mejor adaptación al inglés que a otras lenguas, lo que explicaría su amplia utilización en Estados Unidos. Sin embargo, se han realizado trabajos en italiano, alemán, húngaro y español, entre otras lenguas, usando ToBI como sistema de representación. Un inconveniente más importante es que la anotación mediante ToBI requiere un cierto conocimiento previo de los patrones entonativos de la lengua. Aun así, es un sistema que ofrece indudables ventajas como pueden ser su estructura jerárquica, que permite seleccionar entre subconjuntos o conjuntos mayores de símbolos, la posibilidad de representar problemas que aparecen en la transcripción y el hecho de que existan experimentos demostrando un alto grado de acuerdo entre transcriptores diferentes (Pitrelli et al., 1994).
El proceso de modelización necesario para transcribir mediante INTSINT ha sido aplicado a varias lenguas (Hirst et al., 1993) y se emplea también para la anotación prosódica de parte del corpus EUROM en francés, inglés, alemán, sueco y español (Hirst et al., 1994; Llisterri (Ed.), 1996) llevada a cabo en el marco del proyecto LRE 62-050 MULTEXT (Multilingual Text Tools and Corpora). Es posible también aplicar INTSINT a niveles más altos como el párrafo tal como se muestra en Nicolas y Hirst (1995).
Si se cumplen las etapas mencionadas, se llega a disponer de un corpus que contiene la señal sonora sincronizada con la transcripción ortográfica y con la transcripción fonética o fonológica, de modo que, una vez definida una estructura de base de datos, es posible consultar el corpus partiendo de etiquetas fonéticas, de marcas prosódicas o de la transcripción ortográfica, al tiempo que se accede a la grabación correspondiente.
Los corpus de lengua oral que consisten únicamente en transcripciones ortográficas - ya que no suele ser factible realizar una transcripción fonética completa de un número elevado de horas de grabación - conllevan un procesamiento menos complejo, aunque en algunos casos contienen marcas prosódicas útiles para el análisis del discurso o de la conversación, como veremos en el apartado 6.
Una propuesta similar de etiquetado, también en cinco niveles - características acústicas de naturaleza subfonémica, características segmentales, realizaciones fonéticas, forma canónica de las palabras y transcripción ortográfica - se presenta en Tillmann y Pompino-Marschall (1993) y ha sido utilizada con éxito en el proyecto alemán PhonDat.
El trabajo llevado a cabo en el grupo dedicado a la lengua hablada en EAGLES recoge esencialmente las propuestas desarrolladas en el marco de SAM y de PhonDat. Los niveles de etiquetado propuesto son los siguientes (EAGLES, 1995):
La transcripción denominada «fonotípica» en los trabajos de SAM constituye un nivel intermedio entre la realización fonética y la transcripción puramente fonológica. Por otra parte, el nivel de transcripción de formas canónicas está directamente relacionado con la representación ortográfica, facilitando así la transcripción fonética automática de corpus en este nivel mediante el desarrollo de los correspondientes sistemas de reglas.
En el informe del Grupo de Trabajo de Corpus Textuales de EAGLES (EAGLES, 1996) se intenta realizar una síntesis entre las necesidades de diversos campos de estudio. Se sugieren, por ello, tres niveles de representación:
Por estos motivos, uno de los intereses principales de los investigadores en el campo de las tecnologías del habla ha sido llevar a cabo el etiquetado de forma semi-automática o, idealmente, completamente automática. Un primer nivel de transcripción - tanto de formas canónicas como fonotípica - puede obtenerse automáticamente, como acabamos de mencionar, a partir de la representación ortográfica si se dispone de un conjunto de reglas que establezcan las correspondencias entre la representación ortográfica y la fonética.
Sin embargo, un etiquetado fonético en los niveles de transcripción más detallada requiere la posibilidad de acceder a la onda sonora y un procedimiento de análisis de la señal. La primera operación que debe realizar un sistema de etiquetado automático es la segmentación del continuum sonoro en unidades menores - segmentos o características acústicas, en función del nivel de transcripción deseado - para pasar después a la asignación de etiquetas - símbolos de transcripción - que describan sus características. Este es el proceso conocido propiamente como etiquetado (labelling) que, cuando se realiza de forma automática, debe superar los obstáculos derivados de la naturaleza no discreta de la señal sonora - resultado de mecanismos como la coarticulación - y de la variabilidad de realizaciones fonéticas entre hablantes o incluso en un mismo hablante.
Para que el corpus sea útil, el etiquetado fonético debe estar temporalmente sincronizado con la señal sonora y con la representación ortográfica, operación que se realiza en el proceso conocido como alineación temporal (time alignment), llevado a cabo también de forma automática. Esta alineación puede hacerse de un modo global, señalando en la onda sonora las fronteras entre palabras ortográficas - para facilitar el acceso a la grabación a partir de este nivel de representación - o los puntos en los que se encuentran sílabas acentuadas tal como sucede, por ejemplo, en el proyecto MULTEXT.
En el campo de las tecnologías del habla se han llevado a cabo numerosísimos trabajos encaminados al diseño de sistemas de segmentación, etiquetado y alineación temporal automáticas de corpus orales, utilizando las técnicas propias del reconocimiento del habla como los Modelos de Markov o las redes neuronales. No constituye el objeto de la presente contribución presentar tales procedimientos, por lo que remitimos al lector a los trabajos publicados, por ejemplo, en Eurospeech (1991, 1993, 1995) o en las revistas de la especialidad como Speech Communication (Amsterdam: Elsevier). Cabe destacar que tales técnicas no sólo son útiles en el desarrollo de corpus para las tecnologías del habla, sino que constituyen una herramienta importante en otros tipos de corpus; sin embargo, es preciso reconocer que el habla espontánea - especialmente si se ha recogido mediante grabaciones realizadas en un entorno natural - plantea aún problemas en lo que se refiere a su transcripción y etiquetado automáticos pese a los notabilísimos avances que tienen lugar en este campo.
Ante tal situación, parece conveniente plantearse cuáles son los requisitos que debe cumplir una transcripción de la lengua oral, tema que ha sido abordado por diversos autores (DuBois, 1991; Elich, 1993; Edwards, 1993; OíConnell y Kowal, 1994). Tras revisar aportaciones anteriores, Payrató (1995) resume los requisitos que, teóricamente, deberían exigirse a toda transcripción:
«. . . en ningún caso puede olvidarse que los datos de una investigación no deberían ser tratados nunca de forma tan parcial o idiosincrásica que se impidiera o dificultara el uso por parte de otros investigadores. La transcripción del discurso oral es una actividad suficientemente costosa y conflictiva para tomar precauciones en este sentido, y ninguna comunidad científica puede permitirse el lujo de particularismos (en aspectos tan elementales) que obstruyan el debate o conviertan en inaprovechables una fuente de información».
Los elementos transcritos pueden relacionarse con los diversos niveles de representación del corpus, tal como se presenta en la siguiente tabla:
Nivel de análisis | Elementos transcritos, marcados o codificados |
Nivel segmental | Alargamiento, timbre, acento, reconstrucción de segmentos elididos. |
Nivel silábico | Fronteras silábicas, alargamiento silábico. |
Nivel léxico | Fronteras de palabras, palabras truncadas, formas no estándar, formas onomatopéyicas, formas deletreadas, acrónimos, abreviaturas, cambios entonativos en la palabra, acento léxico, pausas percibidas entre palabras o en el interior de una palabra. |
Nivel sintáctico | Fronteras entre enunciados, modalidad, interrupciones en el enunciado con o sin presencia de pausas. |
Nivel suprasegmental | Unidades entonativas |
Fronteras entre unidades entonativas o entre unidades menores, unidades tonales incompletas o truncadas, reajustes (resets) tonales, junturas, índices de cohesión, contornos tonales terminales. | |
Tono | |
Cambios melódicos en el enunciado o en parte del enunciado, nivel tonal, rango tonal, registro, movimiento tonal en la palabra o en el enunciado. | |
Acento | |
Acento de palabra, acento de frase, acento tonal, niveles de acento, prominencia, énfasis, acento contrastivo, tensión, propiedades rítmicas. | |
Intensidad | |
Intensidad absoluta o relativa de partes del enunciado | |
Velocidad de elocución | |
Cambios en la velocidad de elocución, velocidad de elocución relativa o absoluta. | |
Pausas | |
Pausas silenciosas, pausas vocalizadas, duración absoluta o relativa de las pausas. | |
Nivel paralingüístico | Vocalizaciones semi-léxicas, vocalizaciones no léxicas, timbre de la voz, otros elementos vocalizados (canto, gritos, etc.). |
Nivel discursivo | Turnos de palabra, tipo de transición entre turnos, superposición de turnos. |
Nivel contextual | Fenómenos no comunicativos no léxicos y no vocales, información kinésica. |
Tabla 4: Elementos transcritos, codificados o marcados en el estudio de la lengua oral (EAGLES, 1996)
En la siguiente tabla se resumen los principales elementos propuestos por la TEI para la codificación de corpus orales considerados específicos de este tipo de texto (Sperberg-McQueen y Burnard (Eds.), 1994):
Elemento codificado | Marca de codificación en SGML | Definición |
Divisiones (division) | <div> | Unidades intermedias entre el texto y el enunciado que permiten delimitar partes diferenciadas en un texto. |
Enunciado (utterance) | <u> | Segmento de habla comprendido entre dos pausas o delimitado por un cambio en el turno de palabra; puede incluir además información sobre la superposición (<overlap>) de turnos cuando interviene simultáneamente más de un hablante. |
Pausa (pause) | <pause> | Interrupción de la fonación percibida entre dos enunciados o en el interior de los mismos; puede describirse en términos relativos o indicando su duración. |
Vocal (vocal) | <vocal> | Elemento vocalizado semi-léxico o no léxico (p.ej. pausas llenas o toses). |
Kinésico (kinesic) | <kinesic> | Cualquier fenómeno comunicativo no vocal (p. ej. gestos). |
Acontecimiento (event) | <event> | Cualquier fenómeno identificado en la grabación no necesariamente vocalizado ni con valor comunicativo (p. ej. ruidos de fondo). |
Texto escrito (writing) | <writing> | Texto escrito que se presenta al hablante durante su intervención. |
Cambio (shift) | <shift> | Momento en el que se produce un cambio en alguno de los rasgos paralingüísticos - cualidad de voz, intensidad, rango tonal, ritmo y velocidad de elocución -; cada uno de los rasgos puede describirse mediante una lista de características. |
Tabla 5: Elementos codificados en las transcripciones de lengua oral según los estándares de la TEI (Adaptada de Sperberg-McQueen y Burnard (Eds.), 1994)
Por otra parte, la TEI ofrece mecanismos para indicar el comienzo y el final de un fenómeno, su duración y su sincronización temporal con otros elementos; presenta también la posibilidad de marcar unidades inferiores al enunciado - segmentos <seg> - que permiten delimitar, por ejemplo, unidades prosódicas, e incluye también entre sus propuestas las marcas necesarias para señalar fenómenos propios de la lengua hablada como palabras truncadas, repeticiones, falsos principios - marcados como <del> (deletion) y especificando el fenómeno -. Las partes de la grabación que el transcriptor no llega a interpretar correctamente - <unclear> - o no puede escuchar - <gap> - o las correcciones de errores de producción realizadas por el transcriptor - <sic> para delimitar el error y <corr> para indicar la corrección - son también elementos para los cuales la TEI establece marcas de codificación.
Aunque las Guías de la TEI pueden considerarse un sistema adecuado para la transcripción y codificación de gran variedad de materiales, los autores propios autores reconocen que:
«. . . the present proposals are not intended to support unmodified every variety of research undertaken upon spoken material now or in the future; some discourse analysts, phonologists, and doubtless other may wish to extend the scheme presented here to express more precisely the set of distinctions they wish to draw in their transcriptions. Speech regarded as a purely acoustic phenomenon may well require different methods from those outlined here, as may speech regarded solely as a process of social interaction&» (Sperberg-McQueen y Burnard (Eds.), 1994, cap. 11)
El sistema adoptado para la transcripción y codificación de corpus se basa, como hemos indicado anteriormente, en el desarrollado por French (1991, 1992) para la transcripción del corpus oral desarrollado en el proyecto COBUILD. La transcripción se plantea como una operación que puede desarrollarse en varios niveles:
En el marco de NERC se llevó a cabo una evaluación de las Guías de la TEI para la transcripción de corpus orales (Payne, 1992), de la que se concluye que:
«The TEI proposals are broadly compatible with current practice in the user community, as represented by J.P. French conventions. Furthermore, in the majority of cases it will be a straightforward matter to link the machine-friendly TEI codes to the more user-friendly encoding systems such as J.P. French conventions by means of a simple conversion programme» (Payne, 1992:60)La idea de una conversión automática entre las transcripciones realizadas según las propuestas de NERC y de la TEI es, naturalmente, interesante, y refuerza la idea de que existe una compatibilidad general entre ambos sistemas. De hecho, en el informe final de NERC se recomienda que se sigan las normas de la TEI.
(1) Elementos vocales y no vocales
(2) Elementos necesarios en la transcripción de interacciones verbales
(3) Elementos relacionados con la actuación del hablante
Un aspecto conflictivo sigue siendo la identificación de los enunciados que conforman un texto oral. Mientras que en un texto escrito, los signos de puntuación constituyen un criterio de delimitación, en el habla disponemos de indicios como las pausas, la entonación o el cambio de turno de palabra que nos permiten, al menos convencionalmente, definir un enunciado.
Para la representación ortográfica del corpus se adoptan una serie de convenciones relacionadas con el uso de las mayúsculas, las comillas, los puntos suspensivos - utilizados para señalar pausas, vacilaciones, cortes bruscos o realizaciones repetidas de la misma palabra -, las comas - que se emplean según las reglas de la ortografía aunque no exista pausa o para señalar las pausas de sentido en el discurso - y el punto y aparte, usado para un cambio de tema. Las palabras trabadas o cortadas, las confusiones, las autocorrecciones o las palabras inventadas por el locutor y no documentadas en los diccionarios se transcriben tal como las pronuncia el hablante.
Las convenciones adoptadas para la codificación se basan, según los autores del corpus, en la TEI. Se utilizan por ello etiquetas relativas a la pronunciación - marcando palabras cortadas, reconstrucciones realizadas por el transcriptor, vacilaciones, elementos fáticos, ruidos superpuestos a la enunciación, sonidos de formación expresiva o imitativa como las onomatopeyas -, a los hablantes - identificación de los papeles o del público y marcas señalando la superposición de todos los hablantes -, a las intervenciones - marcando la presencia de texto leído o cantado, la simultaneidad de intervenciones - o los problemas derivados de la grabación; se marca y codifica igualmente la aparición de siglas o de palabras extranjeras.
«La transcripción intenta reproducir lo más fielmente posible la conversación y al mismo tiempo facilitar la labor del lector. El sistema de signos y convenciones empleado es lo suficientemente estrecho, por tanto, para conseguir que el lector pueda reproducir aproximadamente la conversación original» (Briz (Coord.) 1995:39).
Este objetivo del corpus se pone de manifiesto en la selección de los fenómenos transcritos, enumerados a continuación: fenómenos relacionados con el turno de palabra - alternancia de turno, sucesión inmediata de emisiones, solapamientos, reinicios y autointerrupciones, escisiones conversacionales - , pausas y silencios con diversos grados de duración, inflexiones finales o interiores en los grupos entonativos, énfasis, fenómenos fonéticos - fonética sintáctica entre palabras, aspiraciones, asimilaciones, alargamientos segmentales, fragmentos susurrados - y modalidad del enunciado - preguntas, interrogaciones y exclamaciones -.
Las convenciones para la transcripción incluyen además pautas para la representación de las transcripciones dudosas, las interrupciones de la grabación o de la transcripción y las reconstrucciones de unidades léxicas, así como procedimientos de anotación pragmática en forma de notas a pie de página. En lo que respecta a la prosodia, se transcriben los indicios prosódicos «que influían notablemente en el curso de la conversación o introducían alguna modificación en la prosodia ‘normativa’» (Briz (Coord.) 1995:41), para lo cual se realiza, cuando es necesario, una comprobación mediante el análisis acústico de las grabaciones.
La transcripción del corpus se basa en la ortografía convencional, pero se enriquece por medio de convenciones y rasgos específicos «que permitan al lector de la misma la reconstrucción lo más exacta posible de la situación de habla originaria, así como de algunas características fónicas, discursivas y estilísticas» (Avila, 1996:103). Informan los investigadores del proyecto de que en la codificación se han seguido los estándares de la TEI - utilizando para ello SGML -, tomando como punto de partida los criterios del Corpus Oral de Referencia del Español Contemporáneo.
Las etiquetas utilizadas codifican pues información sobre los hablantes y los turnos de palabra - simultaneidad o interrupción -, los rasgos prosódicos - tono, intensidad, entonación, tempo, diversos tipos de pausa en función de su duración relativa y énfasis - las acciones no verbales y los fenómenos no vocales, la actuación lingüística y las incidencias que tienen lugar en la grabación. Se han introducido también, de acuerdo con la especificidad del corpus, etiquetas para «la representación de la características fonéticas propias de las hablas meridionales en general y de las variedades de Málaga en particular» (Ávila, 1996:106); en este aspecto se marca la elisión de consonantes en tensión silábica, la reaparición de consonantes implosivas y el aumento de la duración segmental, además de incluirse una representación de diversos tipos de pausas en función de su duración relativa.
La representación ortográfica se lleva a cabo de acuerdo con la normativa del español y se introducen una serie de convenciones para el tratamiento de los problemas relacionados con formas reducidas de palabras, abreviaturas y acrónimos, palabras deletreadas, secuencias numéricas, interjecciones, fenómenos comunicativos no vocales, fenómenos no comunicativos no vocales, errores de producción, repeticiones, rectificaciones e interrupciones en el discurso, titubeos y fragmentos ininteligibles. Se utilizan los signos ortográficos habituales siguiendo los principios que rigen la normativa de puntuación en español, excepto en el caso del punto y coma, que no se emplea en la transcripción, y de las comillas, cursivas y mayúsculas que se usan como un medio tipográfico de resalte.
Las marcas de codificación incluidas en el corpus se dividen en dos grandes categorías: estructurales e intratextuales. Entre las marcas estructurales se utiliza la que señala una división interna en el texto (<div>, division) con posibilidad de indicar su nivel jerárquico, la que marca un segmento precedido y/o seguido de un cambio de hablante (<u>, utterance) acompañada de una indicación del tipo de transición, y la que codifica la superposición entre hablantes (<overlap>).
Las marcas intratextuales se emplean para codificar la presencia de abreviaturas y acrónimos, palabras extranjeras, discurso directo, números, texto escrito leído por los hablantes, texto resaltado - en casos de discurso directo o cita así como para señalar los elementos que aparecerían tipográficamente marcados en los textos escritos como las palabras extranjeras no adaptadas, los usos metalingüísticos, las marcas o nombres comerciales, etc. - formas deletreadas y titubeos. La codificación recoge también los elementos vocales (<vocal>), para los cuales se elabora una tipología, los fenómenos comunicativos no vocales (<kinesic>) o los fenómenos no vocales y no comunicativos que se detectan en las grabaciones (<event>); se codifican igualmente los fragmentos poco claros de la grabación (<unclear>).
En el procedimiento de codificación adoptado, los signos de puntuación introducidos por el transcriptor son automáticamente interpretados y etiquetados. Así, los enunciados ortográficos separados por signos como el punto, la exclamación o la interrogación se marcan con la etiqueta <s> (sentence). La etiqueta <pause> se reserva, en cambio, para los casos en que aparecerían puntos suspensivo en un texto escrito, señalando una interrupción en el discurso resultado de un titubeo o una cláusula inconclusa.
ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) (1994) Estudios para un corpus del español. Málaga: Universidad de Málaga (Analecta Malacitana, Anejo 7)
ANDERSON, A.H. - BADGER, M.- BARD, E.G.- BOYLE, E.- DOHERTY, G.- GARROD, S.- ISARD, S.- KOWTKO, J.- McALLISTER, J.- MILLER, J.- SOTILLO, C.- THOMPSON, H.S.- WEINERT, R. (1991) «The HCRC Map Task corpus», Language and Speech 34,4: 351-366
ATKINSON, J.M. - HERITAGE, J. (Eds.) (1984) Structures of social action. Studies in conversation analysis. Cambridge / Paris: Cambridge University Press/Editions de la Maison dels Sciences de l'Homme
AUTESSERRE, D.- PÉRENNOU, G.- ROSSI, M. (1989) «Methodology for the transcription and labeling of a speech corpus», Journal of the International Phonetic Association 19,1: 2-15
ÁVILA MUÑOZ, A.M. (1996) «Problemas prácticos en la realización de corpus orales. La transliteración del corpus oral del proyecto de investigación de las variedades vernáculas malagueñas (VUM)», in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 103-112.
BARRY, W.J.- FOURCIN, A.J. (1992) «Levels of Labelling», Computer Speech and Language 6: 1-14
BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February 1994. URL: http://www.ling.ohio-state.edu/~tobi/
BECKMAN, M.E.- HIRSCHBERG, J. (1994) The ToBI Annotation Conventions. Appendix A of BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February 1994. URL: http://www.ling.ohio-state.edu/~tobi/
BLANCHE-BENVENISTE, C.- COLETTE, J.J. (1987) Le français parlé: Transcription et Edition. Paris: Didier Erudition.
BOVES, L.- REFICE, M.- MARTÍNEZ, M.- CASADO, C.- PARDO, M. (1988) «El procesador lingüístico para un sistema multilingüe de conversión texto-habla y habla-texto», Procesamiento del Lenguaje Natural, Boletín nº 6: 53-68.
BRIZ, A. (Coord.) (1995) La conversación coloquial (Materiales para su estudio). València: Universitat de València, Facultad de Filología, Departamento de Filología Española (Lengua Española) (Cuadernos de Filología, Anejo XVI).
BRIZ, A.- GÓMEZ MOLINA, J.R. (1992) «Scheme of Study of Colloquial Spanish: Some Methodological Considerations», in MORENO FERNÁNDEZ, F. (Ed.) Sociolinguistics and Stylistic Variation, LynX 3: 111-124
BRUCE, G. (1988) «2.3. Supasegmental categories and 2.4. The symbolization of temporal events», Journal of the International Phonetic Association 18,2: 75-76
BRUCE, G. (1989) «Report from the IPA working group on suprasegmental categories», Lund University Department of Linguistics, General Linguistics, Phonetics, Working Papers 35: 25-40
BRYAN, M. (1988) SGML: An Author's Guide to the Standard Generalized Markup Language. Wokingham: Addison-Wesley
BURNARD, L. (1995) «What is SGML and how does it help?», Computers and the Humanities 29,1: 41-50; in IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative. Background and Context. Dordrecht: Kluwer Academic Publishers.
BURNARD, L. (1995a) Text Encoding for Information Exchange. An Introduction to the Text Encoding Initiaive. TEI Document no TEI J31.
BURNARD, L. (1995b) «The Text Encoding Initiative: an overview», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 69-81
BUTTON, G.- LEE, J.R.E. (Eds.) (1987) Talk and Social Organization. Clevedon: Multilingual Matters
CAPPELLI, G.- MARRERO, V.- ALBALÁ, M.J. (1994) «Aplicación del sistema MORPHO a una muestra de lenguaje infantil», Sociedad Española para el Procesamiento del Lenguaje Natural, Boletín nº 14: 23-31.
CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J.M.- RUBIO, A. (1992) «Desarrollo de corpus para investigación en tecnologías del habla (Albayzín)», Procesamiento del Lenguaje Natural, Boletín 12: 35-42
CASTEJÓN LAPEYRA, F.- ESCALADA SARDINA, G.- MONZÓN SERRANO, L.- RODRÍGUEZ CRESPO, M.A.- SANZ VELASCO, P. (1994) «Un conversor texto-voz para el español», Comunicaciones de Telefónica I+D, 5, 2: 114-131
CESTERO MANCERA, A. (1994) Análisis de la conversación: alternancia de turnos en la lengua española. Tesis doctoral. Alcalá de Henares: Universidad de Alcalá de Henares.
CHAFE, W. (1995) «Adequacy, user-friendliness, and practicality in transcribing», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 54-61
CHAN, D.- FOURCIN, A.- GIBBON, D.- GRANSTRÖM, B.- HUCKVALE, M.- KOKKINAKIS, G.- KVALE, K.- LAMEL, L.- LINDBERG, B.- MORENO, A.- MOUROPOULOS, J.- SENIA, F.- TRANCOSO, I.- VELD, C.- ZEILIGER, J. (1995) «EUROM - A Spoken Language Resource for the EU», in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 867-870.
COLE, R.A.- OSHIKA, B.T.- NOEL, M.- LANDER, T.- FANTY, M. (1994) «Labeler Agreement in Phonetic Labeling of Continuous Speech», in Proceedings of the 1994 International Conference on Spoken Language Processing, Yokohama, Japan, 18-22 September 1994.
COOK, G. (1995) «Theoretical issues: transcribing the untranscribable», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 35-53
CROWDY, S. (1994) «Spoken corpus transcription», Literary & Linguistic Computing 9,1: 25-28.
CROWDY, S. (1995) «The BNC spoken corpus», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 224-234
De la MOTA, C. - RÍOS, A. (1995) «Problemas en torno a la transcripción fonética del español: los alfabetos fonéticos propuestos por IPA y RFE y su aplicación a un sistema automático», Acta Universitatis Wratislaviensis nº 1660, Estudios Hispánicos IV. Wroclaw. pp. 97-109.
DE LA TORRE MUNILLA, C.- HERNÁNDEZ-GÓMEZ, L.A.- TAPIAS, D. (1995) «CEUDEX: a Data Base Oriented to Context-Dependent Units Training in Spanish for Continuous Speech Recognition», in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 845-848.
DEN OS, E.- BOOGAART, T.I.- BOVES, L.- KLABBERS, E. (1995) «The Dutch Polyphone Corpus», in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 825-828.
DU BOIS, J.W. (1991) «Transcription design principles for spoken discourse research», Pragmatics 1: 71-106
DU BOIS, J.W.- SCHUETZE-COBURN, S.-CUMMING, S.- PAOLINO, D. (1993) «Outline of discourse transcription», in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 45-90
EAGLES (1995) EAGLES Hanbdook on Spoken Language Systems. Draft - Work in Progress. EAGLES Document SLWG, Phase 2, V1. May, 1995.
EAGLES (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P, May 1996. URL: http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html
EDWARDS, J.A. (1991) «Transcription in discourse» in BRIGHT, W. (Ed.) Oxford International Encyclopedia of Linguistics. Oxford: Oxford University Press. Vol 1 pp. 367-371
EDWARDS, J.A. (1992) «Design principles in the transcription of spoken discourse» in SVARTVIK, J. (Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August, 1991. Berlin: Mouton de Gruyter. pp. 129-147
EDWARDS, J.A. (1993) «Principles and Contrasting Systems of Discourse Transcription», in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 3-32
EDWARDS, J.A. (1995) «Principles and alternative systems in the transcription, coding and mark-up of spoken discourse», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 19-34
EHLICH, K. (1993) «HIAT: A Transcription System for Discourse Data», in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 123-148
EISEN, B. (1993) «Reliability of speech segmentation and labelling at different levels of transcription» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 673-676
ENRÍQUEZ, E. (1991) «El problema de las ambigüedades fonéticas y su tratamiento automático», Boletín de la Real Academia de la Lengua Española LXXI, XXLII: 157-183
ESLING, J.H. (1990) «Computer Coding of the IPA: Supplementary Report», Journal of the International Phonetic Association 20,1: 22-26
ESLING, J.H. (1988) «Computer coding of IPA symbols and detailed phonetic representations of computer databases», Journal of the International Phonetic Association 18,2: 99-106
ESLING, J.H.- GAYLORD, H. (1993) «Computer Codes for Phonetic Symbols», Journal of the International Phonetic Association 23,2: 77-82
EUROSPEECH (1991) Eurospeech'91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991.3 vols
EUROSPEECH (1993) Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. 3 vols.
EUROSPEECH (1995) Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. 3 vols.
FOURCIN, A.- DOLMAZON, J.M. (on behalf of the SAM Project) (1991) «Speech knowledge, standards and assessment», in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol 5 pp. 430-433.
FOURCIN, A.- HARLAND, G.- BARRY, W. - HAZAN, V (Eds.) (1989) Speech Input and Output Assessment. Multilingual Methods and Standards. Chichester: Ellis Horwood Ltd.
FRENCH, J.P. (1991) Updated notes for soundprint transcribers. Working paper, University of Birmingham, October 1991, NERC-WP4-47
FRENCH, J.P. (1992) Transcription proposals: multilevel system. Working paper, University of Birmingham, October 1992. NERC-WP4-50
GARRIDO ALMIÑANA, J.M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D. Thesis. Departament de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols.
GIBBON, D. (1989) Survey of Prosodic Labelling for EC Languages. SAM-UBI-1/90, 12 February 1989; Report e.6, in ESPRIT 2589 (SAM) Interim Report, Year 1. Ref. SAM-UCL G002. University College London, February 1990.
GOLDFARB, C.F. (1990) The SGML Handbook. Oxford: Clarendon Press
GOLDMAN-EISLER, F. (1972) «Pauses, Clauses, Sentences», Language and Speech 15: 103-113.
GRØNNUM THORSEN, N. (1987) «Suprasegmental transcription», ARIPUC - Annual Report of the Institute of Phonetics University of Copenhagen 21: 1-27
GUMPERZ, J.J.- BERENZ, N. (1993) «Transcribing Conversational Exchanges», in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 91-122
HALLIDAY, M.A.K. (1985) An Introduction to Functional Grammar. London: Edward Arnold, 1993.
HESS, W.- KOHLER, K.- TILLMANN, H.G. (1995) «The PhonDat-Verbmobil Speech Corpus» , in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 863-866
HIERONYMUS, J.L. (1994) ASCII phonetic symbols for the world's languages: Worldbet. AT&T Bell Laboratories, Technical Memo.
HIRST, D. - DI CRISTO, A.- ESPESSER, R. (en prensa) «Levels of representation and levels of analysis for intonation», in HORNE, M. (Ed.) Prosody: Theory and Experiments. Dordrecht: Kluwer.
HIRST, D.J. (1994) «The symbolic coding of fundamental frequency curves: from acoustics to phonology», in FUJISAKI, H. (Ed.) Proceedings of International Symposium on Prosody. Satellite Workshop of ICLSP94, Yokohama, September, 1994.
HIRST, D.J. - DI CRISTO, A.- LE BESNERAIS, M.- NAJIM, Z.- NICOLAS, P.- ROMÉAS, P. (1993) «Multilingual modelling of intonation patterns», in HOUSE, D.- TOUATI, P. (Eds) Proceedings of an ESCA Workshop on Prosody. September 27-29, 1993, Lund, Sweden. Lund University Department of Linguistics and Phonetics, Working Papers 41. pp. 204-207
HIRST, D.J.(1991) «Intonation models: towards a third generation», in Actes du XIIème Congrès International des Sciences Phonétiques, 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence, Université de Provence, Service des Publications, Vol 1 pp. 305-310
HIRST, D.J.- DI CRISTO, A. (en prensa) «A survey of intonation systems» in HIRST, D. - DI CRISTO, A. (Eds.) Intonation Systems. A Survey of 20 Languages. Cambridge: Cambridge University Press.
HIRST, D.J.- IDE, N. - VÉRONIS, J. (1994) «Coding fundamental frequency patterns for multi-lingual synthesis with INTSINT in the MULTEXT project», in Conference Proceedings of the Second ESCA/IEEE Workshop on Speech Synthesis. September 12-15, 1994. Mohonk Mountain House, New Paltz, New York, USA. pp. 77-80
IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative: Background and Contexts. Computers and the Humanities 29, 1-3. Publicado en forma de libro en: Dordrecht: Kluwer Academic Publishers.
INSTITUTO CERVANTES (1996) Informe sobre recursos lingüísticos para el español (II): Corpus escritos y orales disponibles y en desarrollo en España. Alcalá de Henares: Observatorio Español de Industrias de la lengua, Instituto Cervantes.
IPA (1989) «The IPA 1989 Kiel Convention Workgroup 9 report: Computer Coding of IPA symbols and Computer Representation of Individual Languages», Journal of the International Phonetic Association 19,2: 81-92
IPA (1993) «IPA Chart, revised to 1993», Journal of the International Phonetic Association 23,1. URL: http://www.internationalphoneticassociation.org/content/ipa-chart
IPA (1995) Preview of the IPA Handbook, Journal of the International Phonetic Association 25,1.
ISO 8879 (1986) Information Processing. Text and Office Systems. Standard Generalized Markup Language (SGML). Geneva: International Organization for Standardization.
JOHANSSON, S. (1995a) «The approach of the Text Encoding Initiative to the encoding of spoken discourse», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 82-98
JOHANSSON, S. (1995b) «The Encoding of Spoken Texts», Computers and the Humanities 29,1: 149-158; in IDE, N.- VÉRONIS, J. (Eds) (1995) The Text Encoding Initiative. Background and Context. Dordrecht: Kluwer Academic Publishers. pp. 149-158.
KEATING, P.- MacEACHERN, P.- SHRYOCK, A.- DOMÍNGUEZ, S. (1994) «A manual for phonetic transcription: Segmentation and labelling of words in spontaneous speech», UCLA Working Papers in Phonetics 88: 91-120.
KLUGER-KRUSE, M. (1987) Computer Phonetic Alphabet. ESPRIT Linguistic Analysis of the European Languages. Report BU-CPA0267, July, 1987.
LANDER, T. (1997) The CSLU Labeling Guide. Center for Spoken Language Understanding, Oregon Graduate Institute.
LEHISTE, I. (1979) «Perception of Sentence and Paragraph Boundaries», in LINDBLOM, B. - ÖHMAN, S. (Eds.) (1979) Frontiers of Speech Communication Research. London: Academic Press. pp. 191-201.
LEÓN HURTADO, L. (1994) «Transcripción fonética asistida por ordenador», in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 145-185
LEÓN HURTADO, L.- SÁNCHEZ SÁEZ, J.M. (1996) «Bases para el diseño de un transcriptor fonético a partir de textos orales transliterados», in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 113-122.
LÉON, P.- MARTIN, P. (1970) Prolegomènes à l'étude des structures intonatives. Montréal: Didier (Studia Phonetica 2).
LLISTERRI, J. (1994) Prosody Encoding Survey. WP 1 Specifications and Standards. T1.5. Markup Specifications. Deliverable 1.5.3. Final version, 15 September 1994. LRE Project 62-050 MULTEXT. URL: http://aune.lpl.univ-aix.fr/projects/multext/CES/CES1.html
LLISTERRI, J. (Ed.) (1996) Prosody Tools Efficiency and Failures. WP 4 Corpus. T4.6 Speech Markup and Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT.
MacWHINNEY, B. (1991) The CHILDES Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence Erlbaum.
MARCHAL, A.- NGUYEN, N.- HARDCASTLE, W. (1995) «Multitiered phonetic approach to speech labelling», in SORIN, C.- MARIANI, J.- MELONI, H.- SCHOENTGEN, J. (Eds.) Levels in Speech Communication. Relations and Interactions. A Tribute to Max Wajskop / Hommage à Max Wajskop. Amsterdam: Elsevier Science B.V. pp. 149-158
MARCOS MARÍN, F. (1991) «Corpus lingüístico de referencia de la lengua española», Boletín de la Academia Argentina de Letras 56: 129-155
MARCOS MARÍN, F.- BALLESTER, A.- SANTAMARÍA, C. (1993) «Transcription Conventions used for the Corpus of Spoken Contemporary Spanish», Literary & Linguistic Computing 8, 4: 283-292
MARCOS MARÍN, F.- ZUMÁRRAGA, V. (1991) «El corpus de referencia de la lengua española», Razón y Fe 223/1, 109, Marzo 1991: 285-293
MARIÑO, J.B. - LLISTERRI, J. (1993) Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/v1 20th April 1993. ESPRIT PROJECT 6819 (SAM-A Speech Technology Assessment in Multilingual Applications).
MARTÍ, J.- NIÑEROLA, D. (1987) «SINCAS: un conversor texto-voz en castellano», Procesamiento del Lenguaje Natural, Boletín nº 5: 111-122.
MARTÍNEZ, M. - PARDO, J.M.- BORRAJO, A.- SANTOS, A.- BARRIO, C.L.- MUÑOZ, E.- QUILIS, A. (1986) «Conversión automática texto-habla y su relación con el procesamiento del lenguaje natural» in C. MARTÍN VIDE (Ed) Lenguajes naturales y lenguajes formales I. Barcelona: Universitat de Barcelona pp. 366-375.
MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C. (1993) «ALBAYZIN Speech Database: Design of the Phonetic Corpus», in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 175-178
NELSON, G. (1995) «The International Corpus of English: mark-up for spoken language», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 220-223
NERC (1994) NERC-1. Network of European Reference Corpora. Final Report. Pisa: Instituto di Linguistica Computazionale - CNR. January 1994; versión en curso de publicación: CALZOLARI, N.- BAKER, M.- KRUYT, P.G. (Eds) Towards a Network of European Reference Corpora. Pisa: Giardini.
NICOLAS, P.- HIRST, D. (1995) «Symbolic coding of Higher-Level Characteristics of Fundamental Frequency Curves», in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 2, pp. 989-992.
O'CONNELL, D.C.- KOWAL, S. (1994) «Some Current Transcription Systems for Spoken Discourse: A critical Analysis», Pragmatics 4: 81-107
OCHS, E. (1979) «Transcription as Theory», in OCHS, E.- SCHIEFFELIN, B.B. (Eds.) (1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72
PARDO, J.M.- ENRÍQUEZ, E.- AGUILERA, S.- SANTOS, A.- QUILIS, A. (1992) «Tecnología del habla para siete idiomas: El proyecto ESPRIT Polyglot-I», Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 12
PAYNE, J. (1992) Report on the compatibility of JP French's spoken corpus transcription conventions with the TEI guidelines for transcription of spoken texts. Working paper, COBUILD Birmingham and IDS Mannheim. December 1992, NERC-WP8/WP4-122
PAYNE, J. (1995) «The COBUILD spoken corpus: transcription conventions», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 203-207
PAYRATÓ, L. (1995) «Transcripción del discurso coloquial», in CORTÉS RODRÍGUEZ, L. (Ed.) El español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de 1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70
PEPPÉ, S. (1995) «The Survey of English Usage and the London-Lund Corpus: computerizing manual prosodic transcription», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp.187-202
PÉREZ GUTIÉRREZ, J.A.- GUERRERO PÉREZ, J.L. (1993) «Transfon: transcriptor fonético para el castellano» in MARTÍN VIDE, C. (Ed) Lenguajes Naturales y Lenguajes Formales IX. Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, Reus, 20-22 de diciembre de 1993. Barcelona: PPU. pp. 227-236
PÉREZ, J.C.- VIDAL, E. (1991) «Un sistema de conversión de texto a voz para el castellano», Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 11: 197-208.
PIERREHUMBERT, J. B.(1980) The Phonology and Phonetics of English Intonation. PhD Thesis, Department of Linguistics, MIT. Bloomington: Indiana University Linguistics Club, 1987.
PINO, M. (1997) Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 1.2. Informe interno. Madrid: Instituto de Lexicografía, Real Academia Española.
PITRELLI, J. - BECKMAN, M. - HIRSCHBERG, J. (1994) «Evaluation of prosodic transcription labelling reliability in the ToBI framework», in Proceedings of the Third International Conference on Spoken Language Processing, Yokohama, ICSLP, Vol. 2. pp. 123-126.
PULLUM, G.K.- LADUSAW, W.A. (1986) Phonetic Symbol Guide. Chicago: The University of Chicago Press. 2nd. edition, 1996.
RFE (1915) «Alfabeto fonético de la RFE», Revista de Filología Española II: 374-376.
RÍOS MESTRE, A. (1993) «La información lingüística en la transcripción fonética automática del español», Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387
RÍOS, A. (1994) «El contenido fónico en el Sistema de Diccionarios Electrónicos del Español», in LLISTERRI, J.- POCH, D. (Eds.) Actas del XII Congreso Nacional de la Asociación Española de Lingüística Aplicada. Nuevos Horizontes de la Lingüística Aplicada. Barcelona, 20-22 de abril de 1994. pp. 333-340.
ROACH, P.- ROACH, H.- DEW, A.- ROWLANDS, P. (1990) «Phonetic analysis and the automatic segmentation and labeling of speech sounds», Journal of the International Phonetic Association 20,1: 15-21
RODRÍGUEZ CRESPO, M.A.- ESCALADA SARDINA, J.G.- MACARRÓN LARUMBE, A.- MONZÓN SERRANO, L. (1993) «AMIGO: Un conversor texto-voz para el español», Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 389-400
SCHMIDT, M.S. -SCOTT, C.- JACK, M.A. (1993) «Phonetic transcription standards for European names (ONOMASTICA)» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 279-282
SCHUETZE-COBURN, S. (1991) «Units of intonation in discourse: a comparison of acoustic and auditory analysis», Language and Speech 34,3: 207-234
SELTING, M. (1987) «Descriptive categories for the auditive analysis of intonation in conversation», Journal of Pragmatics 11: 777-791
SELTING, M. (1988) «The role of intonation in the organisation of repair and problem handling sequences in conversation», Journal of Pragmatics 12: 293-322.
SENIA, F.- van VELDEN, J.G. (1997) Specifications of orthographic transcription and lexicon conventions. LRE-4001 SpeechDat Technical Report SD1.3.2, Final version, 10 January 1997. URL: http://www.speechdat.org/SpeechDat.html
SILVERMAN, K.- BECKMAN, M.- PITRELLI, J.- OSTENDORF, M.- WIGHTMAN, C.- PRICE, P.- PIERREHUMBERT, J.- HIRSCHBERG, J. (1992) «TOBI: A standard for labelling English prosody», Proceedings of the Second International Conference on Spoken Language Processing, ICSLP-92. Banff, October 1992. pp. 867-870
SINCLAIR, J. (1994) «Spoken Language» [3B] ,«Phonetic/Phonemic and Prosodic Annotation» [5.2], in NERC (1994) NERC-1 Network of European Reference Corpora, Final Report.Pisa; versión en curso de publicación: CALZOLARI, N.- BAKER, M.- KRUYT, P.G. (Eds.) Towards a Network of European Reference Corpora. Pisa: Giardini.
SINCLAIR, J. (1995) «From theory to practice», in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 99- 112
SINCLAIR, J. (Ed.) (1987) Looking Up, An Account of the Cobuild Project. London: Collins.
SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1994) Guidelines for Electronic Text Encoding and Interchange. TEI P3. Chicago and Oxford: Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistic Computing. [Cap. 11: Transcriptions of Speech] URL: http://etext.lib.virginia.edu/standards/tei/teip4/index.html
STENSTRÖM, A.-B. (1994) An Introduction to Spoken Interaction. London - New York: Longman (Learning about Language).
STRANGERT, E.- HELDNER, M. (1995) «Labelling of boundaries and prominences by phonetically experienced and non-experienced transcribers», Phonum 3, Reports from the Department of Phonetics, Umeå University: 85-109.
TANNEN, D. (1984) Conversational Style: Analyzing Talk about Friends. Norwood, N.J.: Ablex
TEUBERT, W. (1993) Phonetic / Phonemic and Prosodic Annotation. Final Report, IDS Mannheim. February 1993. NERC-WP8-171
' T HART, J.- COLLIER, R.- COHEN, A. (1990) A Perceptual Study of Intonation. An Experimental - Phonetic Approach to Intonation. Cambridge: Cambridge University Press. (Cambridge Studies in Speech Science and Communication)
TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) «Theoretical Principles Concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems», in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1691-1694
TRANCOSO, I. (1995) «The ONOMASTICA Interlanguage Pronunciation Lexicon», in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 829-832.
TUSÓN VALLS, A. (1995) Anàlisi de la conversa. Barcelona: Empúries (Biblioteca Universal Empúries, 73)
Van HERWIJNEN, E. (1994) Practical SGML. Boston: Kluwer
VILLENA PONSODA, J.A. (1994) «Pautas y procedimientos de representación del corpus oral de la Universidad de Málaga. Informe preliminar», in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 73-102
WELLS, J.C. (1987) «Computer Coded Phonetic Transcription», Journal of the International Phonetic Association 17,2: 94-114.
WELLS, J.C. (1989) «Computer-coded phonemic notation of individual languages of the European Community», Journal of the International Phonetic Association 19,1: 31-54
WELLS, J.C. (1994) «Computer-coding the IPA: a proposed extension of SAMPA», Speech, Hearing and Language, Work in Progress, 1994 (University College London, Department of Phonetics and Linguistics) 8: 271-289
WELLS, J.C. (1995) SAMPROSA (SAM Prosodic Transcription). URL: http://www.phon.ucl.ac.uk/home/sampa/samprosa.htm
WELLS, J.C.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.
WESENICK, M.-B.- SCHIEL, F. (1995) Feasibility of Automatic Annotation and Building Pronunciation Lexica from Corpus Material. LRE-63314 SpeechDat, Report D3.1.2.3., Final version, 10 October 1995. URL: http://www.speechdat.org/
WINSKI, R. - MOORE, R.- GIBBON, D. (1995) «EAGLES Spoken Language Working Group: Overview and Results», in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 841-844.
Etiquetado, transcripción y
codificación de corpus
orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat
Autònoma de
Barcelona
https://joaquimllisterri.cat/publicacions/FDS97.html
La pàgina va ser modificada per darrera vegada el 15/07/97
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.