La representación fonética de corpus orales
La representación fonética de un corpus oral supone pasar de una señal continua a una representación discreta y simbólica como es la transcripción fonética.
Discreta | Continua |
Representación ortográfica Transcripción fonética |
Señal sonora |
La señala sonora y la transcripción fonética recogen la variabilidad, mientras que la representación ortográfica no ofrece información sobre la variabilidad propia del habla.
Variable | Invariable |
Señal sonora Transcripción fonética |
Representación ortográfica |
La transcripción fonética suele realizarse conjuntamente con otras dos operaciones:
❯ Dificultades y limitaciones de la transcripción fonética
Niveles de etiquetado fonético de un corpus oral.
Propiedades acústicas presentes en la señal sonora.
Propiedades de los segmentos en términos de categorías fonéticas (oclusión, fricción, nasalización, sonoridad, etc.).
Caracterización de los segmentos utilizando los símbolos del Alfabeto Fonético Internacional o sus equivalentes computacionales.
Se transcriben únicamente los elementos funcionalmente distintivos que se encuentran en la palabra pronunciada aisladamente en estilo cuidado (citation form).
Se utilizan los símbolos correspondientes a los elementos fonológicos en una lengua dada para transcribir realizaciones alofónicas condicionadas por el contexto.
El etiquetado prosódico se considera de forma independiente.
Se utiliza la representación ortográfica convencional.
Se representa la forma de pronunciación aislada de las palabras en estilo cuidado.
Se utilizan los símbolos que representan elementos fonológicos en una lengua dada, pero se transcriben aquellos fenómenos predecibles propios de la fonética sintáctica. El sistema de representación recomendado es SAMPA (SAM Phonetic Alphabet).
Se basa en una representación alofónica de las realizaciones fonéticas de los hablantes. El sistema de representación recomendado es X-SAMPA (Extended SAM Phonetic Alphabet).
Se distinguen características acústicas de los segmentos observables en una representación de la onda sonora.
Representado en términos de parámetros acústicos o articulatorios.
Sonidos de naturaleza comunicativa o introducidos por el hablante; información paralingüística; ruidos externos a la grabación.
Representación ortográfica convencional del texto.
Representación fonológica de las palabras en su forma canónica. El sistema de representación recomendado es SAMPA (SAM Phonetic Alphabet).
Representación simbólica discreta de la realización del enunciado tal como es percibido por el transcriptor. El sistema de representación recomendado es X-SAMPA (Extended SAM Phonetic Alphabet).
Formas canónicas (citation form):
Transcripción fonotípica:
❯ Tipos de transcripción fonética
Niveles de etiquetado de corpus orales
❯ La representación fonética de los elementos segmentales
❯ La representación fonética de los elementos suprasegmentales
Transcribir y etiquetar fonéticamente un corpus oral representa un considerable esfuerzo, tanto en términos de tiempo como de recursos económicos.
El etiquetado manual de un corpus requiere el desarrollo de convenciones detalladas para asegurar la coherencia entre diversos transcriptores.
Criterios de etiquetado de corpus orales
El etiquetado manual de un corpus requiere el establecimiento de un procedimiento de validación de la transcripción y del etiquetado.
Un procedimiento habitual para validar los criterios de etiquetado y su aplicación es el cálculo del grado de acuerdo entre diferentes transcriptores.
Medida del grado de acuerdo entre transcriptores: Kappa (κ) de Cohen.
Validación del etiquetado de corpus orales
❯ Etiquetado manual de corpus orales mediante Praat
La transcripción de formas canónicas y la transcripción fonotípica pueden obtenerse automáticamente a partir de la representación ortográfica si se dispone de una herramienta de transcripción fonética automática.
El etiquetado automático requiere una serie de operaciones:
Goldman, J. P. (2012). EasyAlign: Phonetic alignment with Praat. [Fonetiks] @ UniGe. Some phonetics at University of Geneva [Programa informático]. Genève: Département de Linguistique, Université de Genève. Consultado en http://latlntic.unige.ch/phonetique/easyalign.php
Herramientas para el etiquetado de corpus orales