La lingüística de corpus
Conjunto estructurado y documentado de materiales recogidos en función de criterios explícitos.
(Fuente de la imagen: Centre for Corpus Research. (2021). Sinclair Open Lecture series. University of Birmingham. https://www.birmingham.ac.uk/research/activity/corpus/events/sinclair-lectures.aspx)
|
(Fuente de la imagen: Linguistics & English Language. (2021). Professor Tony McEnery. Lancaster University. https://www.lancaster.ac.uk/linguistics/about/people/tony-mcenery)
|
(Fuente de la imagen: Linguistics & English Language. (2021). Dr Andrew Wilson. Lancaster University. https://www.lancaster.ac.uk/linguistics/about/people/andrew-wilson)
|
![]() |
![]() |
Manuales de lingüística de corpus
Actas de congresos y compilaciones
GELC Students & Researchers Channel. (2013, 5 de diciembre). History of corpus linguistics. YouTube. https://www.youtube.com/watch?v=L1kKKsWA6R4
Lingüística «empirista» basada en corpus y lingüística «racionalista» basada en la introspección.
McEnery, T. y Wilson, A. (2001). Early corpus linguistics and the Chomskyan revolution. Corpus linguistics (2.a ed., pp. 1–27). Edinburgh University Press. https://www.lancaster.ac.uk/fss/courses/ling/corpus/Corpus1/1FRA1.HTM
(Fuente de la imagen: Lakoff, G. (2014, 18 de febrero). Charles Fillmore, discoverer of Frame Semantics, dies in SF at 84: He figured out how framing works. The blog of the International Computer Science Institute. https://www.icsi.berkeley.edu/icsi/blog/chuck-fillmore-dies-at-84)
|
Aplicaciones de los corpus escritos
Aplicaciones de los corpus orales
Written corpora.
Text corpora.
Consistentes en textos originalmente escritos.
El tratamiento y el análisis del corpus se realiza a partir de la forma escrita.
Definición de objetivos.
Definición de tareas.
Evaluación de materiales existentes.
Evaluación de estándares existentes.
Recursos humanos.
Recursos técnicos.
Recursos económicos.
Planificación temporal.
El diseño del corpus depende de la finalidad de la investigación.
Definición del material lingüístico contenido en el corpus.
Definición de las características de los textos o de los locutores.
Definición del entorno y del procedimiento de recogida de datos.
Definición de los criterios y niveles de representación de los datos.
Los niveles de representación de los datos dependen de los objetivos del corpus.
La conversión de los materiales disponibles en papel a textos en formato electrónico requiere, al menos, cuatro etapas:
La conversión de grabaciones analógicas en grabaciones digitales requiere un proceso de digitalización de la señal sonora.
❯ La conversión de analógico a digital
Si se constituye un corpus para la difusión pública o para la explotación comercial es preciso tener en cuenta que los materiales originales pueden estar sujetos a derechos de autor, regulados por las leyes relativas a la propiedad intelectual.
La recogida de datos que implique la participación de personas (por ejemplo, en la grabación de un corpus oral) requiere el consentimiento informado de los participantes.
Los documentos de un corpus textual o las transcripciones de un corpus oral pueden almacenarse en diversos formatos:
SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language
Los documentos sonoros de un corpus oral suelen almacenarse en formato .wav (Waveform Audio File Format) o en otros formatos de sonido compatibles.
Cada uno de los documentos o archivos que forman el corpus debe estar asociado a una descripción del mismo, indicando sus datos de procedencia y todas las informaciones relevantes para la utilización posterior del corpus.
En los corpus codificados mediante SGML (Standard Generalized Markup Language) o XML (eXtensible Markup Language), según los estándares de la TEI (Text Encoding Initiative) esta información se incluye en la cabecera (TEI Header) del documento.
En los corpus orales, la cabecera (header) de cada uno de los documentos sonoros contiene la información sobre la grabación y sobre el contenido de los archivos.
La información relativa a los textos o a las grabaciones puede almacenarse también en una base de datos convencional.
Herramientas para la recogida de los datos y, si es necesario, su transformación en el formato de los materiales definido para el corpus.
Estándares y procedimientos de grabación.
Procedimiento de búsqueda y de selección de locutores.
Encoding.
Procedimiento de representación de los caracteres, de la estructura del texto y de la anotación, de modo que la estructura y la anotación se mantienen separadas del contenido del corpus.
Sistema o esquema de codificación.
La codificación de los textos permite:
Ejemplo de texto sin codificar:
La codificación del texto
Los estándares de la TEI
La Text Encoding Initiative ha establecido un conjunto de estándares para la codificación de los textos. Así, es posible separar el contenido de un documento del formato en el que se presenta.
En este caso, la codificación se llevará a cabo usando el lenguaje de marcación conocido como XML (eXtensible Markup Language) y mediante una herramienta disponible en https://oxgarage.tei-c.org
Ejemplo de texto codificado en XML (eXtensible Markup Language) según los estándares de la versión 5 de la Text Encoding Initiative mediante la herramienta OxGarage:
La Text Encoding Initiative (TEI) ha establecido un conjunto de normas para la codificación de los textos electrónicos basada en los lenguajes de marcación SGML (Standard Generalized Markup Language) y XML (eXtensible Markup Language).
SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language
❯ La codificación de los corpus de lengua oral
Primer nivel de representación de un corpus oral.
(Fuente de la imagen: Departament de Filologia Catalana i Lingüística General. (s. f.). Lluís Payrató. Universitat de Barcelona. http://filcat.ub.edu/directori-organitzatiu/lluis-payrato)
|
❯ La representación fonética de corpus orales
Alignment, temporal alignment, time alignment.
La señal sonora se sincroniza temporalmente (es decir, se alinea) con la transcripción ortográfica y con la transcripción fonética, fonológica o prosódica.
Etiquetado y alineación de fonos, de difonemas (difonos) y de palabras en la secuencia “el año”, realizados mediante el programa Praat.
Consortium CORLI - CORpus, Langues, Interactions. (2021). Time alignment. Glossaire. https://corli.huma-num.fr/en/glossaire/time-alignment/
Annotation.
Labelling.
(Fuente de la imagen: Myers, G. (2014). In memory of Geoffrey Leech. http://wp.lancs.ac.uk/geoffreyleech/)
|
Enriquecimiento del corpus mediante información adicional introducida por el investigador en función de sus objetivos y de su interpretación lingüística de los datos.
Para cada nivel de representación se establece un conjunto de «etiquetas» que se asocian a unidades de análisis del corpus.
Necesidad de establecer un inventario de etiquetas (tag set), en algunos casos adaptado a corpus multilingües.
La documentación es esencial para garantizar la reutilización del corpus.
Puede presentarse en forma de uno o varios manuales o en forma de metadatos.
(Fuente de la imagen: Lou Burnard [Perfil en Google Scholar]. (s. f.). Google Scholar. Consultado el 11 de mayo de 2021, en https://scholar.google.com/citations?user=6QHeEHgAAAAJ)
|
Proceso de verificación de los aspectos formales y de contenido del corpus.
La validación pueden llevarla a cabo los propios investigadores o bien puede realizarse externamente en centros especializados.
European Language Resources Association. (2015). Validation. http://www.elra.info/en/services-around-lrs/validation/
Publicación del corpus en un soporte físico o en la red.
La distribución puede realizarse a través de centros especializados en la distribución de recursos lingüísticos.
❯ Centros de distribución de recursos lingüísticos
❯ Iniciativas para la identificación y la distribución de recursos lingüísticos
Los corpus publicados en la red requieren un mantenimiento, especialmente en lo que se refiere a los aspectos técnicos.