Bibliografia

Lingüística de corpus i corpus escrits


Corpus orals i corpus de llengua oral


Lingüística de corpus i recursos lingüístics: treballs generals

✓ = Lectures recomanades: nivell introductori

✓✓ = Lectures recomanades: nivell avançat

Aarts, J. (1988). Corpus linguistics: An appraisal. A Y. Choueka (Ed.), Computers in literary and linguistic research: Proceedings of the 15th International Conference on Literary and Linguistic Computing. Jerusalem, 5-9 June, 1988 (p. 13–28). Champion; Slatkine.

✓ Adolphs, S. i Lin, P. M. S. (2010). Corpus linguistics. A J. Simpson (Ed.), The Routledge handbook of applied linguistics (p. 597–610). Routledge. https://doi.org/10.4324/9780203835654

✓ Baker, P., Hardie, A. i McEnery, T. (2006). A glossary of corpus linguistics. Edinburgh University Press.

Baquero, J. M. (2010). Lingüística computacional aplicada. Universidad Nacional de Colombia.

Breve fundamentación teórica en torno a la investigación lingüística; Programas para la consulta de concordancias; Análisis morfológico y sintáctico; Análisis del texto y del discurso; Organización de bibliografías.

Barnbrook, G. (1996). Language and computers: A practical introduction to the computer analysis of language. Edinburgh University Press.

1.– Why use a computer; 2.– First capture your data; 3.– Examining the catch: using frequency lists; 4.– Studying the environment: using concordances; 5.– The sociology of words: collocations; 6.– Putting them in their place: tagging, parsing and so on; 7.– The leading edge: applications of natural language processing; 8.– Case studies.

Berber Sardinha, T. (2004). Lingüística de corpus. Editora Manole.

1.– Visão geral de Lingüística de Corpus; 2.– Coleta, armazenamento e pré-processamento de corpora; 3.– Listas de palavras, concordáncias, palabras-chave: o programa WordSmith Tools; 4.– Etiquetagem morfossintática (POS tagging); 5.– Exemplo de desenho de corpus: um corpus de português especializado na linguagem profissional; 6.– Freqüéncias de palavras da língua portuguesa segundo o Banco de Português; 7.– Análise de palavras em contexto: concordáncias; 8.– Padronização na língua portuguesa segundo a Lingüística de Corpus: a partícula só 9.– Lingüística de corpus e tradução: prosódia semântica; 10.– Lingüística de Corpus e Lingüística Aplicada: o ensino de língua estrangeira; 11.– Estudo de variação com Lingüística de Corpus: a Análise Multidimensional.

✓ Biber, D., Conrad, S. i Reppen, R. (1998). Corpus linguistics: Investigating language structure and use. Cambridge University Press.

1.– Introduction: goals and methods of the corpus-based approach. I. Investigating the use of language features: 2.– Lexicography; 3.– Grammar; 4.– Lexico-grammar; 5.– The study of discourse characteristics. II. Investigating the characteristics of varieties: 6.– Register variation and English for Specific Purposes; 7.– Language acquisition and development; 8.– Historical and stylistic investigations. III. Summing up and looking ahead: 9.– Conclusion. IV. Methodology boxes: 1.– Issues in corpus design; 2.– Issues in diachronic corpus design; 3.– Concordancing packages versus programming for copus analysis; 4.– Characteristics of tagged corpora; 5.– The process of tagging; 6.– Norming frequency counts; 7.– Statistical measures of lexical associations; 8.– The unit of analysis in corpus-based studies; 9.– Significant tests and the reporting of statistics; 10.– Factor loadings and dimension scores. Appendix: commercially available corpora and analytical tools.

Burnard, L. (1992). Tools and techniques for computer-assisted text processing. A C. S. Butler (Ed.), Computers and written text (p. 1–28). Basil Blackwell.

Butler, C. S. (1985). Computerized text processing in linguistic and literary research. Linguistics Abstracts, 1(2), 53–67.

Caravedo, R. (1999). Lingüística del corpus: cuestiones teórico-metodológicas aplicadas al español. Ediciones de la Universidad de Salamanca.

Cole, R. A. (1997). Language resources. A R. A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen i V. Zue (Ed.), Survey of the state of the art in Human Language Technology (p. 174–441). Cambridge University Press; Giardini. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.366.9300

Dash, N. S. i Arulmozi, S. (2018). History, features and typology of language corpora. Springer. https://doi.org/10.1007/978-981-10-7458-5

1.– Definition of ‘corpus’; 2.– Features of a corpus; 3.– Genre of text; 4.– Nature of data; 5.– Type and purpose of text; 6.– Nature of text application; 7.– Parallel translation corpus; 8.– Web text corpus; 9.– Pre-digital corpora (Part 1); 10.– Pre-digital corpora (Part 2); 11.– Digital text corpora (Part 1); 12.– Digital text corpora (Part 2); 13.– Digital speech corpora; 14.– Utilization of language corpora; 15.– Limitations of language corpora.

Dash, N. S. i Ramamoorthy, L. N. (2019). Utility and application of language corpora. Springer. https://doi.org/10.1007/978-981-13-1801-6

1.– Issues in text corpus generation; 2.– Process of text corpus generation; 3.– Corpus editing and text normalization; 4.– Statistical studies on language corpus; 5.– Processing texts in a corpus; 6.– Corpus as a primary resource for ELT; 7.– Corpus as a secondary resource for ELT; 8.– Corpus and dictionary making; 9.– Corpus and dialect study; 10.– Corpus and word sense disambiguation; 11.– Corpus and technical TermBank; 12.– Corpus and machine translation; 13.– Corpus and some other domains; 14.– Language corpora: The Indian scenario; 15.– Corpus and future Indian needs.

Davidson, L. (1992). Using large text data-banks on computers. A P. Roach (Ed.), Computing in linguistics and phonetics: Introductory readings (p. 5–34). Academic Press.

Egbert, J., Larsson, T. i Biber, D. (2020). Doing linguistics with a corpus: Methodological considerations for the everyday user. Cambridge University Press. https://doi.org/10.1017/9781108888790

1.– Introduction; 2.– Getting to know your corpus; 3.– Research designs: Linguistically meaningful research questions, observational units, variables, and dispersion; 4.– Linguistically interpretable variables; 5.– Software tools and linguistic interpretability; 6.– The role of statistical analysis in linguistic descriptions; 7.– Interpreting quantitative results; 8.– Wrapping up; Appendix: Why it is problematic to apply NHST to large (corpus) samples.

Gries, S. T. i Newman, J. (2013). Creating and using corpora. A R. J. Podesva i D. Sharma (Ed.), Research methods in linguistics (p. 257–287). Cambridge University Press. https://doi.org/10.1017/CBO9781139013734

Habert, B., Fabre, C. i Issac, F. (1998). De l’écrit au numérique : constituer, normaliser et exploiter les corpus électroniques. InterEditions.

Habert, B., Nazarenko, A. i Salem, A. (1997). Les linguistiques de corpus. Armand Colin.

Introduction; Première partie: Les corpus annotés et leurs utilisateurs. I.– Les corpus étiquetés: II.– Les corpus arborés; III.– Les resources lexicales pour l’étiquetage sémantique; Deuxième partie: Dimensions transversales. IV.– Des mots aux sens: sémantique en corpus; V.– Le langage au fil du temps: corpus et diachronie. VI.– D’une lange à l’autre: les corpus alignés: VII.– Constituer un corpus; VIII.– Annoter un corpus; IX.– Quantifier les faits langagiers.

Hincapié, D. A. i Bernal, J. A. (2018). Lingüística de corpus. Instituto Caro y Cuervo. http://bibliotecadigital.caroycuervo.gov.co/id/eprint/1703

Introducción; Definición de la lingüística de corpus; Definición de corpus; Características de un corpus; Tipología de los corpus; Historia de la lingüística de corpus; Usos de los corpus; La construcción de un corpus; La lingüística de corpus y la lengua español; Consideraciones finales; Glosario.

Hockey, S. M. (2001). Electronic texts in the humanities: Principles and practice. Oxford University Press. https://doi.org/10.1093/acprof:oso/9780198711940.001.0001

1.– Why electronic texts?; 2.– Creating and acquiring electronic texts; 3.– Text encoding; 4.– Concordance and text retrieval programs; 5.– Literary analysis; 6.– Linguistic analysis; 7.– Stylometry and attribution studies; 8.– Textual criticism and electronic editions; 9.– Dictionaries and lexical databases; 10- where next?

✓ Kennedy, G. (1998). An introduction to corpus linguistics. Longman. https://doi.org/10.4324/9781315843674

1.– Introduction; 2.– The design and development of corpora; 3.– Corpus-based descriptions of English; 4.– Corpus analysis; 5.– Implications and applications of corpus-based analysis.

Knowles, G. (1996). Corpora, databases and the organization of linguistic data. A J. Thomas i M. H. Short (Ed.), Using corpora for language research: Studies in honour of Geoffrey Leech (p. 36–56). Longman.

Leech, G. (1991). The state of the art in corpus linguistics. A K. Aijmer i B. Altenberg (Ed.), English corpus linguistics: Sudies in honour of Jan Svartvik (p. 8–29). Longman.

Leech, G. i Beale, A. (1985). Computers in English language research. Language Teaching, 17(3), 216–229. https://doi.org/10.1017/S0261444800010685

Leech, G. i Beale, A. (1985). Computers in English language research. A V. Kinsella (Ed.), Cambridge Language Teaching Surveys 3 (p. 5–18). Cambridge University Press.

Leech, G. i Fligelstone, S. (1992). Computers and corpus analysis. A C. S. Butler (Ed.), Computers and written text (p. 115–140). Basil Blackwell.

Lüdeling, A. i Kytö, M. (Ed.). (2008). Corpus linguistics: An international handbook (Vol. 1). Mouton de Gruyter.

I.– Origin and history of corpus linguistics: Corpus linguistics vis-à-vis other disciplines: 1.– Pre-electronic corpora (C. F. Meyer); 2.– Early generative linguistics and empirical methodology (. Karlsson); 3.– Some aspects of the development of corpus linguistics in the 1970s and 1980s (S. Johansson); 4.– Corpus linguistics and historical linguistics (M. Rissanen); 5.– Theory-driven and corpus-driven computational linguistics, and the use of corpora (S. Dipper); 6.– Corpus linguistics and sociolinguistics (S. Romaine); 7.– Corpora and language teaching (U. Römer); 8.– Corpus linguistics and lexicography (U. Heid); II.– Corpus compilation and corpus types: 9.– Collection strategies and design decisions (S. Hunston); 10.– Text corpora (M. Hundt); 11.– Speech corpora and spoken corpora (A. Wichmann); 12.– Multimodal corpora (J. Allwood); 13.– Treebanks (J. Nivre); 14.– Historical corpora (C. Claridge) ; 15.– Learner corpora (S. Granger); 16.– Parallel and comparable corpora (K. Aijmer); 17.– Corpora of computer-mediated communication (M. Beißwenger, A. Storrer); 18.– Web linguistics (G. Bergh, E. Zanchetta); 19.– Large text networks as an object of corpus linguistic studies (A. Mehler); III.– Existing corpora: 20.– Well-known and influential corpora (R. Xiao); 21.– Corpora of less studied languages (N. Ostler); IV.– Preprocessing corpora: 22.– Annotation standards (T. Lehmberg, K. Wörner); 23.– Development of tag sets for part-of-speech tagging (E. Atwell); 24.– Tokenizing and part-of-speech tagging (H. Schmid); 25.– Lemmatising and morphological tagging (A. Fitschen, P. Gupta); 26.– Sense and semantic tagging (P. Rayson, M. Stevenson); 27.– Corpora for anaphora and coreference resolution (R. Mitkov); 28.– Syntactic preprocessing (H. Kermes); 29.– Pragmatic annotation (D. Archer, J. Culpeper, M. Davies); 30.– Preprocessing speech corpora: Transcription and phonological annotation (N. Oostdijk, L. Boves); 31.– Preprocessing multimodal corpora (P. Wittenburg); 32.– Preprocessing multilingual corpora (M. P. Oakes) ; 33.– Searching and concordancing (M. Wynne); 34.– Searching treebanks and other structured corpora (S. Wallis) ; 35.– Linguistically annotated corpora: Quality assurance, reusability and sustainability (H. Zinsmeister, E. Hinrichs, S. Kübler, A. Witt).

Lüdeling, A. i Kytö, M. (Eds). (2009). Corpus Linguistics. An International Handbook (Volume 2). Berlin – New York: Mouton de Gruyer.

36.– Statistical methods for corpus exploitation (M. Baroni, S. Evert ); 37.– Distributions in text (M. Baroni); 38.– Multi-dimensional approaches (D. Biber ); 39.– Machine learning (A. van den Bosch); 40.– Exploratory multivariate analysis (H. Moisl); 41.– Corpus linguistics in morphology: Morphological productivity (R. H. Baayen); 42.– Corpora and syntax (W. D. Meurers, S. Müller); 43.– Corpora and grammar (A. Stefanowitsch, S. Th. Gries); 44.– The induction of verb frames and verb classes from corpora (S. Schulte im Walde ), 45.– Corpus linguistics and word meaning (M. Hoey), 46.– Theory-driven corpus research: Using corpora to inform aspect theory (R. Xiao); 47.– Corpora and spoken language (M. McCarthy, A. O’Keeffe); 48.– Cross-lingual influence: The integration of foreign items (A. Lindström, R. Eklund); 49.– Corpora and discourse analysis (T. Virtanen); 50.– Corpus linguistics and stylometry (M. P. Oakes); 51.– Historical corpus linguistics and evidence of language change (A. Curzan); 52.– Corpora and the study of recent change in language (C. Mair); 53.– Corpus linguistics and dialectology (L. Anderwald, B. Szmrecsanyi); 54.– Contrastive corpus studies (J. Schmied); 55.– Corpora in human translation (S. Hansen-Schirra, E. Teich); 56.– Corpora and machine translation (H. Somers); 57.– Corpus linguistics and first language acquisition (H. Diessel); 58.– Corpora and collocations (S. Evert); 59.– Corpora and text re-use (P. Clough, R. Gaizauskas); 60.– Corpora for text summarisation (C. Orasan, L. Hasler, R. Mitkov); 61.– Quantitative methods in corpus linguistics (D. Biber, J. K. Jones).

✓ Martí, M. A. (2012). Els corpus lingüístics. A G. Colón i L. Gimeno (Ed.), La lingüística i les seues aplicacions en la societat (p. 99–114). Publicacions de la Universitat Jaume I.

✓ McEnery, T. (2014). Corpora. A R. Mitkov (Ed.), The Oxford handbook of computational linguistics (2a ed.). Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199573691.013.47

✓ McEnery, T. i Wilson, A. (2001). Corpus linguistics (2a ed.). Edinburgh University Press. https://www.lancaster.ac.uk/fss/courses/ling/corpus/

1.– Early corpus linguistics and the Chomskyan revolution; 2.– What is a corpus and what is in it?; 3.– Quantitative data; 4.– The use of corpora in language studies; 5.– Corpora and language engineering; 6.– A case study: Sublanguages; 6.– Looking backwards, looking forwards.

✓ McEnery, T. i Hardie, A. (2011). Corpus linguistics: Method, theory and practice. Cambridge University Press. https://doi.org/10.1017/CBO9780511981395

1.– What is corpus linguistics?; 2.– Accessing and analysing corpus data; 3.– The web, laws and ethics; 4.– English corpus linguistics; 5.– Corpus-based studies of synchronic and diachronic variation; 6.– Neo-Firthian corpus linguistics; 7.– Corpus methods and functionalist linguistics; 8.– The convergence of corpus linguistics, psycholinguistics and functionalist linguistics; 9.– Conclusion; Glossary.

McEnery, T., Xiao, R. i Tono, Y. (2006). Corpus-based language studies. Routledge.

A.– Introduction: A1.– Corpus linguistics: The basics; A2.– Representativeness, balance and sampling; A3.– Corpus markup; A4.– Corpus annotation; A5.– Multilingual corpora; A6.– Making statistical claims; A7.– Using available corpora; A8.– Going solo: DIY corpora; A9.– Copyright; A10.– Corpora and language studies; B.– Extension; B1.– Corpus representativeness and balance; B2.– Objections to corpora: An ongoing debate; B3.– Lexical and grammatical studies; B4.– Language variation studies; B5.– Contrastive and diachronic studies; B6.– Language teaching and learning; C.– Exploration: C1.– Collocation and pedagogical lexicography; C2.– Help or help to: What do corpora have to say?; C3.– L2 acquisition of grammatical morphemes; C4.– Swearing in modern British English; C5.– Conversation and speech in American English; C6.– Domains, text types, aspect marking and English-Chinese translation.

✓✓ O’Keeffe, A. i McCarthy, M. (Ed.). (2010). The Routledge handbook of corpus linguistics. Routledge. https://doi.org/10.4324/9780203856949

I.– Historical perspective: 1.– What are corpora and how have they evolved? (M. McCarthy, A. O’Keeffe); 2.– Theoretical overview of the evolution of corpus linguistics (E. Tognini Bonelli); II.– Building and designing a corpus: 3.– Building a corpus: What are the key considerations? (R. Reppen); 4.– Building a spoken corpus: What are the basics? (S. Adolphs, D. Knight ); 5.– Building a written corpus: What are the basics? (M. Nelson); 6.– Building a small specialised corpora (A. Koester); 7.– Building a corpus to represent a variety of a language (B. Clancy); 8.– Building a specialised audio-visual corpus (P. Thompson); III.– Analysing a corpus: 9.– What corpora are available? (D. Y. W. Lee); 10.– What are the basics of analysing a corpus? (J. Evison); 11.– What can corpus software do? (M. Scott ); 12.– How can a corpus be used to explore patterns? (S. Hunston); 13.– What are concordances and how are they used? (C. Tribble ); 14.– What can corpus software reveal about language development? (X. Lu); IV.– Using a corpus for language research: 15.– What can a corpus tell us about lexis? (R. Moon); 16.– What can a corpus tell us about multi-word units? (C. Greaves, M. Warren); 17.– What can a corpus tell us about grammar? (S. Conrad); 18.– What can a corpus tell us about register and genres? (D. Biber); 19.– What can a corpus tell us about specialist genres? (M. Handford); 20.– What can a corpus tell us about discourse? (S. Thornbury); 21.– What can a corpus tell us about pragmatics? (C. Ruhlemann); 22.– What can a corpus tell us about creativity? (T. A. Vo, R. Carter); V.– Using a corpus for language pedagogy and methodology: 23.– What can a corpus tell us about language teaching? (W. Cheng); 24.– What features of spoken and written corpora can be exploited in creating language teaching materials and syllabuses? (S. Walsh); 25.– What is data-driven learning? (A. Chambers); 26.– How can data-driven learning be used in language teaching? (G. Gilquin, S. Granger); 27.– How can we prepare learners for using language corpora? (P. Sripichan); VI.– Designing corpus-based materials for the language classroom: 28.– What can a corpus tell use about vocabulary teaching materials? (M. Jones, P. Durrant); 29.– What a corpus tells us about grammar teaching materials (R. Hughes); 30.– Corpus-informed course book design (J. McCarten); 31.– Using corpora to write dictionaries (E. Walter); 32.– Using corpora for writing instruction (L. Flowerdew); 33.– What can corpora tell us about english for academic purposes? (A. Coxhead); 34.– How can teachers use a corpus for their own research? (E. Vaughan); VII.– Using corpora to study ltierature and translation: 35.– What are parallel and comparable corpora and how can we use them? (M.-M. Kenning); 36.– Using corpora in translation (N. Kubler, G. Aston); 37.– How can corpora be used to explore the language of poetry and drama? (D. McIntyre, B. Walker); 38.– How can corpora be used to explore literary speech representation? (C. P. Amador-Moreno); VIII.– Applying corpus linguistics to other areas of research: 39.– How to use corpus linguistics in sociolinguistics (G. Andersen); 40.– How to use corpus linguistics in the study of media discourse (K. O’Halloran); 41.– How to use corpus linguistics in forensic linguistics (J. Cotterill); 42.– How to use corpus linguistics in the study of political discourse (A. Adel); 43.– How to use corpus linguistics in the study of health communication (S. Atkins, K. Harvey); 44.– How can corpora be use in teacher education? (F. Farr); 45.– How can corpora be used in language testing? (F. Barker).

Oshika, B. T. i Krausse, S. C. (1992). Electronic databases for linguistic and language research. Library Trends, 40(4), 724–732. http://hdl.handle.net/2142/7804

Parodi, G. (2007). Lingüística de corpus. A G. Parodi (Ed.), Lingüística de corpus y discursos especializados: puntos de mira (p. 13–30). Ediciones Universitarias de Valparaíso, Pontificia Universidad Católica de Valparaíso.

Parodi, G. (2008). Lingüística de corpus: una introducción al ámbito. Revista de Lingüística Teórica y Aplicada, 46(1), 93–119. https://doi.org/10.4067/S0718-48832008000100006

Parodi, G. (2010). Lingüística de corpus: de la teoría a la empiria. Iberoamericana; Vervuert.

1.– ¿Qué es la Lingüística de Corpus? (Re)surgimiento, definiciones y antecedentes; 2.– ¿Cómo se puede trabajar desde la LC?: procedimientos metodológicos; 3.– La interfaz El Grial como un sistema de anotación, interrogación y almacenamiento de corpus en español; 4.– Empiria e investigación de foco cuantitativo: explotación de la variación multiregistros a través del Corpus del Español PUCV-2003; 5.– Empiria e investigación de foco cualitativo: identificación de géneros académicos y géneros profesionales a través del Corpus del Español PUCV-2006; 6.– Compendio de bases de datos y recursos informáticos en línea; 7.– Reflexiones finales.

Parodi, G., Cantos-Gómez, P. i Howe, C. (Ed.). (2022). Lingüística de corpus en español. The Routledge handbook of Spanish corpus linguistics. Routledge. https://doi.org/10.4324/9780429329296

Introducción: lingüística de corpus en español (G. Parodi, P. Cantos, C. Howe); I.– Tipología de corpus para el español: 1.– Constitución de corpus crecientes del español (M. Davies, G. Parodi); 2.– Corpus diacrónicos del español de España (C. Sánchez Lancis); 3.– Corpus diacrónicos del español en las Américas (V. Bertolli, C. Company Company); 4.– Corpus académicos orales del español (I. V. Bosio, L. Cubo), 5.– Corpus de aprendientes de español en L2 (G. Rojo, I. Palacios); 6.– Corpus paralelos español-inglés (M. L. Carrió-Pastor, F. Alonso-Almeida); 7.– Corpus del español como lengua de herencia (E. Gironzetti); II.– Estudios del español mediante corpus: 8.– Estudio de la fonología/fonética española mediante corpus (A. Cabedo); 9.– Estudio de la variación (morfo)sintáctica del español mediante corpus (R. Mayoral); 10.– Los corpus del español y los estudios de sintaxis funcional (M. J. Rodríguez Espiñeira, H. Olbertz); 11.– Sistemas pronominales y corpus especializados en español (B. De Cock); 12.– Los corpus generales del español y el análisis léxico (M. Almela); 13.– El papel de los corpus en la terminología: una mirada específica a la terminología del español (M. T. Cabré, I. da Cunha); 14.– Lingüística de corpus y semántica cognitiva en español (C. Subirats); 15.– Los corpus del español hablado y los estudios pragmáticos (M. Albelda); 16.– Cortesía y descortesía en los corpus del español (A. Bolívar, M. E. Flores); 17.– Los marcadores del discurso del español y los estudios basados en corpus (S. Pons Bordería, E. Pascual Aliaga); 18.– El estado del discurso especializado en español basado en corpus: el caso de las cartas (G. Ciapuscio, C. López-Ferrero); 19.– Corpus del español y lenguaje formulaico (V. Cortés); 20.– La variación geográfica y social en los corpus hispánicos (F. Moreno Fernández); 21.– Estudio de variación situacional en corpus orales del español (A. Briz, M. Samper Hernández); 22.– Patrones retóricos y enseñanza de la escritura disciplinar en español basado en corpus (R. Venegas, F. Lillo-Fuentes, E. Sologuren); 23.– Corpus y enseñanza del español (V. Vázquez Rozas, M. Blanco); 24.– Corpus y patrones léxicos en español como L2 (A. Fernández-Montraveta, G. Vázquez-García); 25.– Datos longitudinales en corpus de aprendientes de español (C. Sánchez-Gutiérrez, P. Fernández-Mira); III.– Metodologías, herramientas y recursos para el análisis de corpus del español: 26.– Desarrollos tecnológicos de la lingüística de corpus en español (M. A. Martí, M. Taulé; 27.– Etiquetadores morfosintácticos para corpus en español (A. Moreno Sandoval); 28.– Sistemas de anotación semántica para corpus de español (B. Navarro Colorado); 29.– Herramientas, recursos y metodologías de análisis para la traducción mediante corpus lingüísticos del español (S. Molina-Plaza); 30.– Detección automática de léxico especializado en corpus del español (G. Sierra Martínez), 31.– El estudio del español a través de la lingüística románica comparativa mediante corpus (C. Howe, C. Lívio); 32.– Uso de medios digitales de comunicación como corpus del español (C. de Benito Moreno); 33.– Métodos de clasificación automática de textos para el español (O. Kolesnikova, A. Gelbukh); 34.– Análisis de sentimiento del español basado en corpus (A. Moreno-Ortiz, C. Pérez-Hernández, J. Fernández-Cruz); 35.– Métodos de análisis estadísticos basados en corpus del español (J. Serigos); 36.– Métodos multidimensionales basados en corpus del español (Á. Almela, T. Berber, P. Cantos).

Quirk, R. i Stein, G. (1996). Sipping a cocktail of corpora. A J. Thomas i M. H. Short (Ed.), Using corpora for language research: Studies in honour of Geoffrey Leech (p. 27–35). Longman.

Rafel, J. i Soler, J. (2001). El processament de corpus: la lingüística empírica. A M. A. Martí (Ed.), Les tecnologies del llenguatge (p. 27–59). Edicions de la Universitat Oberta de Catalunya.

Rafel, J. i Soler, J. (2003). El procesamiento de corpus. A M. A. Martí (Ed.), Tecnologías del lenguaje (p. 41–73). Editorial UOC.

Rojo, G. (2008). Lingüística de corpus y lingüística del español. XV Congreso de la Asociación de Lingüística y Filología de América Latina. Montevideo, Uruguay, 18-21 de agosto de 2008. https://gramatica.usc.es/~grojo/Publicaciones/Lgca_corpus_lgca_espanol.pdf

Rojo, G. (2015). Hispanic corpus linguistics. A M. Lacorte (Ed.), The Routledge handbook of Hispanic applied linguistics (p. 371–387). Routledge. https://doi.org/10.4324/9781315882727

Rojo, G. (2021). Introducción a la lingüística de corpus en español. Routledge. https://doi.org/10.4324/9781003119760

1.– La explotación básica de los corpus; 2.– La lingüística de corpus y la metodología de la investigación lingüística; 3.– Diseño, construcción y explotación de corpus; 4.– Recuperación de información contenida en corpus textuales: el léxico; 5.– Recuperación de información contenida en corpus textuales: fenómenos gramaticales; 6.– Otras cuestiones centrales en lingüística de corpus; 7.– Herramientas de recuperación de datos: resumen y ampliación.

Sierra, G. E. (2015). Introducción a los corpus lingüísticos. Universidad Nacional Autónoma de México, Instituto de Ingeniería. http://www.corpus.unam.mx/cursocorpus/LibroCorpus.pdf

I.– Introducción a corpus: 1.– El concepto de corpus lingüístico; 2.– Descripción de corpus existentes; 3.– Clasificación de corpus; 4.– Internet como corpus; II.– Compilación de corpus: 5.– Compilación de corpus textuales; 6.– Compilación de corpus orales; III.– Anotación de corpus: 7.– Bases para la anotación de corpus; 8.– XML; 9.– Tipos de anotación; IV.– Herramientas y técnicas de análisis: 10.– Técnicas de análisis; 11.– Herramientas de análisis textual; V.– Aplicaciones: 12.– Aplicaciones en lingüística; 13.– Aplicaciones en lingüística aplicada; 14.– Aplicaciones en TL.

✓ Sinclair, J. (2005). Corpus and text – Basic principles. A M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice (p. 1–16). Oxford Text Archive. http://hdl.handle.net/20.500.12024/2951

✓✓ Stefanowitsch, A. (2020). Corpus linguistics: A guide to the methodology. Language Science Press. https://doi.org/10.5281/zenodo.3735822

1.– The need for corpus data; 2.– What is corpus linguistics?; 3.– Corpus linguistics as a scientific method; 4.– Data retrieval and annotation; 5.– Quantifying research questions; 6.– Significance testing; 7.– Collocation; 8.– Grammar; 9.– Morphology; 10.– Text; 11.– Metaphor; 12.– Epilogue; 13.– Study notes; 14.– Statistical tables.

Stubbs, M. (1996). Text and corpus analysis: Computer assisted studies of language and culture. Basil Blackwell.

I. Concepts and history: 1.– Text and text types; 2.– British traditions in text analysis: Firth, Halliday and Sinclair; 3.– Institutional linguistics: Firth, Hill and Giddens. II. Text and corpus analysis: 4.– Baden-Powell: A comparative analysis of two short texts; 5.– Judging the facts: An analysis on one text in the institutional context; 6.– Human and inhuman geography: A comparative analysis of two long texts and a corpus; 7.– Keywords, collocations and culture: The analysis of word meanings across corpora; 8.– Towards a modal grammar of english: A matter of prolonged fieldwork; 9.– The classic questions.

Svartvik, J. (1992). Corpus linguistics comes of age. A J. Svartvik (Ed.), Directions in corpus linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4-8 August 1991. Mouton de Gruyter. https://doi.org/10.1515/9783110867275.7

Svartvik, J. (1996). Corpora are becoming mainstream. A J. Thomas i M. H. Short (Ed.), Using corpora for language research: Studies in honour of Geoffrey Leech (p. 3–13). Longman.

Teubert, W. i Čermáková, A. (2007). Corpus linguistics: A short introduction. Continuum.

1.– Language and corpus linguistics; 1.1.– Are all languages the same?; 1.2.– Standard linguistics and word meaning; 1.3.– Words, idioms and collocations; 1.4.– Corpus linguistics: A different look at language; 1.5.– A brief history of corpus linguistics; 2.– Directions in corpus linguistics; 2.1.– Language and representativeness; 2.2.– Corpus typology; 2.3 Meaning in discourse; 2.4.– Meaning as usage and paraphrase; 2.5.– Globalisation; 2.6.– What corpus linguistics can tell us about meaning; 2.7.– Collocations, translation and parallel corpora; 2.8.– Conclusion: From meaning to understanding; Glossary.

Tognini-Bonelli, E. (2001). Corpus linguistics at work. John Benjamins. https://doi.org/10.1075/scl.6

1.– Introduction; 2.– Language teaching; 3.– Corpus issues; 4.– The corpus-based approach; 5.– The corpus-driven approach; 6.– Item and environment; 7.– Working with corpora across languages; 8.– The contextual theory of meaning; 9.– Historical landmarks in meaning; 10.– Conclusion.

Tolchinsky, L. i Martí, M. A. (2013). La lingüística de corpus, què és i quina utilitat educativa té. Quaderns per a l’anàlisi, 36, 7–22.

Völkel, S. i Kretzschmar, F. (2021). Corpus linguistics. Introducing linguistic research (p. 133–165). Cambridge University Press. https://doi.org/10.1017/9781316884485.008

Weisser, M. (2016). Practical corpus linguistics: An introduction to corpus-based language analysis. Wiley Blackwell. https://doi.org/10.1002/9781119180180

1.– Introduction; 2.– What’s out there?: A general introduction to corpora; 3.– Understanding corpus design; 4.– Finding and preparing your data; 5.– Concordancing; 6.– Regular expressions; 7.– Understanding part-of-speech tagging and its uses; 8.– Using online interfaces to query mega corpora; 9.– Basic frequency analysis – or what can (single) words tell us about texts?; 10.– Exploring words in context; 11.– Understanding markup and annotation; 12.– Conclusion and further perspectives; The CLAWS C5 tagset; The annotated dialogue file; The CSS style sheet; Glossary.

✓ Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good practice. Oxford Text Archive. http://hdl.handle.net/20.500.12024/2951

1.– Corpus and text: Basic principles (John Sinclair); 2.– Adding linguistic annotation (G. Leech); 3.– Metadata for corpus work (L. Burnard); 4.– Character encoding in corpus construction (A. McEnery, R. Xiao); 5.– Spoken language corpora (P. Thompson); 6.– Archiving, distribution and preservation (M. Wynne); Appendix to chapter one: How to make a corpus (J. Sinclair).

Zufferey, S. (2020). Introduction to corpus linguistics. ISTE; John Wiley & Sons. https://doi.org/10.1002/9781119779728

1.– How to define corpus linguistics; 2.– How to use corpora in theoretical linguistics; 3.– How to use corpora in applied linguistics; 4.– How to use multilingual corpora; 5.– How to find and analyze corpora in French; 6.– How to build a corpus; 7.– How to annotate a corpus; 8.– How to analyze corpus data; Conclusion: The stages for carrying out a corpus study.

Lingüística de corpus i recursos lingüístics: actes de congressos i reculls

Aarts, J., de Haan, P. i Oostdijk, N. (Ed.). (1993). English language corpora: Design, analysis and exploitation. Papers from the thirteenth International Conference on English Language Research on Computerized Corpora, Nijmegen 1992. Brill.

Aarts, J. i Meijs, W. (Ed.). (1984). Corpus linguistics: Recent developments in the use of corpora in English language research. Brill.

Aarts, J. i Meijs, W. (Ed.). (1986). Corpus linguistics II: New studies in the analysis and exploitation of computer corpora. Brill.

Aarts, J. i Meijs, W. (Ed.). (1990). Theory and practice in corpus linguistics. Brill.

Aijmer, K. i Altenberg, B. (Ed.). (1991). English corpus linguistics: Studies in honour of Jan Svartvik. Longman.

Armstrong, S. (Ed.). (1994). Using large corpora. The MIT Press.

Baker, P. (Ed.). (2009). Contemporary corpus linguistics. Continuum.

Baker, M., Francis, G. i Tognini-Bonelli, E. (Ed.). (1993). Text and technology: In honour of John Sinclair. John Benjamins. https://doi.org/10.1075/z.64

Butler, C. S. (Ed.). (1992). Computers and written texts. Basil Blackwell.

Choueka, Y. (Ed.). (1990). Computers in literary and linguistic research: Proceedings of the 15th International Conference on Literary and Linguistic Computing. Jerusalem, 5-9 June, 1988. Champion; Slatkine.

Fries, U., Tottie, G. i Schneider, P. (Ed.). (1994). Creating and using English language corpora: Papers from the fourteenth International Conference on English Language Research on Computerized Corpora, Zürich 1993. Brill.

Garside, R., Leech, G. i McEnery, T. (Ed.). (1997). Corpus annotation: Linguistic information from computer text corpora. Longman.

Garside, R., Leech, G. i Sampson, G. (Ed.). (1987). The computational analysis of English: A corpus-based approach. Longman.

Hundt, M., Nesselhauf, N. i Biewer, C. (Ed.). (2007). Corpus linguistics and the Web. Brill.

Johansson, S. i Oksefjell, S. (Ed.). (1998). Corpora and cross-linguistic research: Theory, method and case studies. Brill.

Johansson, S. i Stenström, A.-B. (Ed.). (1991). English computer corpora. de Gruyter Mouton. https://doi.org/10.1515/9783110865967

Kirk, J. M. (Ed.). (2000). Corpora galore: Analyses and techniques in describing English. Brill.

Kytö, M., Ihalainen, O. i Rissanen, M. (Ed.). (1988). Corpus linguistics, hard and soft: Proceedings of the Eighth International Conference on English Language Research on Computerized Corpora. Brill.

Lahoz-Bengoechea, J. M. i Pérez Ramón, R. (Ed.). (2019). Subsidia: Tools and Resources for Speech Sciences / Subsidia: herramientas y recursos para las ciencias del habla. Universidad de Málaga. https://hdl.handle.net/10630/18177

Leitner, G. (Ed.). (1992). New directions in English language corpora: Methodology, results, software developments. de Gruyter Mouton. https://doi.org/10.1515/9783110878202

Meijs, W. (Ed.). (1987). Corpus linguistics and beyond: Proceedings of the Seventh International Conference on English Language Research on Computerized Corpora. Brill.

Oostdijk, N. i de Haan, P. (Ed.). (1994). Corpus-based research into language: In honour of Jan Aarts. Brill

Parodi, G. (Ed.). (2007). Working with Spanish corpora. Continuum.

Payrató, L., Boix, E., Lloret, M.-R. i Lorente, M. (Ed.). (1996). Corpus, corpora: Actes del 1r i 2n col·loquis lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Promociones y Publicaciones Universitarias. http://hdl.handle.net/2445/111985

Renouf, A. i Kehoe, A. (Ed.). (2009). Corpus linguistics: Refinements and reassessments. Brill.

Sampson, G. i McCarthy, D. (Ed.). (2005). Corpus linguistics: Readings in a widening discipline. Continuum.

Sinclair, J. (2004). Trust the text: Language, corpus and discourse (R. Carter, Ed.). Routledge. https://doi.org/10.4324/9780203594070

Schmidt, T. i Wörner, K. (Ed.). (2012). Multilingual corpora and multilingual corpus analysis. John Benjamins. https://doi.org/10.1075/hsm.14

Svartvik, J. (Ed.). (1992). Directions in corpus linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4-8 August 1991. de Gruyter Mouton. https://doi.org/10.1515/9783110867275

Thomas, J. i Short, M. H. (Ed.). (1996). Using corpora for language research: Studies in honour of Geoffrey Leech. Longman.

Turell, M. T. i Vallduví, E. (Ed.). (1998). IV i V Jornades de Corpus Lingüístics, 1996-1997. Universitat Pompeu Fabra, Institut Universitari de Lingüística Aplicada.

LREC, International Conference on Language Resources and Evaluation

Rubio Ayuso, A. J., Gallardo, N., Castro, R. i Tejada, A. (Ed.). (1998). First International Conference on Lan- guage Resources and Evaluation: Proceedings. Granada, Spain, 28-30 May, 1998. European Language Resources Association (ELRA).

LREC 2000. 2nd International Conference on Language Resources and Evaluation. Athens, Greece, 31 May – 2 June 2000. (2000). European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2000/

LREC 2002. Third International Conference on Language Resources and Evaluation. Las Palmas, Canary Islands, Spain, 29-31 May, 2002. (2002). European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2002/

LREC 2004. 4th International Conference on Language Resources and Evaluation. Lisbon, Portugal, 26-28 May 2004. (2004). European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2004/

Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy. European Language Resources Association (ELRA). Consultat a http://www.lrec-conf.org/proceedings/lrec2006/

Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odijk, J., Piperidis, S. i Tapias, D. (Ed.). (2008). Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC 2008). Marrakech, Morocco, 28-30 May, 2008. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2008/

Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odijk, J., Piperidis, S., Rosner, M. i Tapias, D. (Ed.). (2010). Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010). Valletta, Malta, May 17-23, 2010. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2010/index.html

Calzolari, N., Choukri, K., Declerck, T., Doğan, M. U., Maegaard, B., Mariani, J., Moreno, A., Odijk, J. i Piperidis, S. (Ed.). (2012). Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC 2012). Istanbul, Turkey, May 21-27, 2012. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2012/index.html

Calzolari, N., Choukri, K., Declerck, T., Loftsson, H., Maegaard, B., Mariani, J., Moreno, A., Odijk, J. i Piperidis, S. (Ed.). (2014). Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC 2014). Reykjavik, Iceland, May 26-31, 2014. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2014/index.html

Calzolari, N., Choukri, K., Declerck, T., Goggi, S., Grobelnik, M., Maegaard, B., Mariani, J., Mazo, H., Moreno, A., Odijk, J. i Piperidis, S. (Ed.). (2016). Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož, Slovenia, 23-28 May, 2016. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2016/index.html

Calzolari, N., Choukri, K., Cieri, C., Declerck, T., Goggi, S., Hasida, K., Isahara, H., Maegaard, B., Mariani, J., Mazo, H., Moreno, A., Odijk, J., Piperidis, S. i Tokunaga, T. (Ed.). (2018). Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan, May 7-12, 2018. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2018/index.html

Calzolari, N., Béchet, F., Blache, P., Choukri, K., Cieri, C., Declerck, T., Goggi, S., Isahara, H., Maegaard, B., Mariani, J., Mazo, H., Moreno, A., Odijk, J. i Piperidis, S. (Ed.). (2020). Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020). Marseille, France, May 11-16, 2020. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2020/index.html

tornar al principi

Lingüística de corpus i recursos lingüístics: revistes

CHIMERA: Revista de corpus de lenguas romances y estudios lingüísticos. (2014–). UAM Ediciones. https://doi.org/10.15366/chimera

Computers & Texts. (1986–2000). Oxford University, Centre for Textual Studies. https://users.ox.ac.uk/~ctitext2/publish/comtxt/

Corpus. (2002–). Université Nice Sophia Antipolis, Laboratoire Bases, Corpus, Langage (UMR 6039). https://journals.openedition.org/corpus/

Corpus Linguistics and Linguistic Theory. (2005–). de Gruyter Mouton. https://www.degruyter.com/journal/key/cllt/html

Computers and the Humanities. (1996–2004). Kluwer. https://www.jstor.org/journal/comphuma

Digital Scholarship in the Humanities. (2015–). Oxford University Press. https://academic.oup.com/dsh

ICAME Journal (International Computer Archive of Modern English). (1987–). Norwegian Computer Centre for the Humanities; de Gruyter. http://icame.uib.no/journal.html; https://sciendo.com/journal/ICAME

International Journal of Corpus Linguistics. (1996–). John Benjamins. https://www.jbe-platform.com/content/journals/15699811

Language Resources and Evaluation. (1966–). Springer. https://www.springer.com/journal/10579

Literary and Linguistic Computing. (1986–2014). Oxford University Press. https://academic.oup.com/dsh

Research in Corpus Linguistics (RiCL). (2013–). Asociación Española de Lingüística de Corpus / Spanish Association for Corpus Linguistics. https://ricl.aelinco.es/index.php/ricl

tornar al principi

Lingüística de corpus i recursos lingüístics: treballs específics

Barlow, M. (2011). Corpus linguistics and theoretical linguistics. International Journal of Corpus Linguistics, 16(1), 3–44. https://doi.org/10.1075/ijcl.16.1.02bar

de Beaugrande, R. (1996). The ‘pragmatics’ of doing language science: The ‘warrant’ for large-corpus linguistics. Journal of Pragmatics, 25(4), 503–535. https://doi.org/10.1016/0378-2166(94)00115-4

Blecua, J. M. (1996). Reflexiones al margen de los corpus escritos. A L. Payrató, E. Boix, M.-R. Lloret i M. Lorente (Ed.), Corpus, corpora: Actes del 1r i 2n coŀloquis lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2) (p. 15–26). Promociones y Publicaciones Universitarias. http://hdl.handle.net/2445/111985

Fillmore, C. J. (1992). ‘Corpus linguistics’ or ‘Computer-aided armchair linguistics’. A J. Svartvik (Ed.), Directions in corpus linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4-8 August 1991 (p. 35–66). Mouton de Gruyter. https://doi.org/10.1515/9783110867275.35

Gries, S. T. (2010). Corpus linguistics and theoretical linguistics: A lovehate relationship? Not necessarily… International Journal of Corpus Linguistics, 15(3), 327–343. https://doi.org/10.1075/ijcl.15.3.02gri

Sampson, G. (1996). From central embedding to corpus linguistics. A J. Thomas i M. H. Short (Ed.), Using corpora for language research: Studies in honour of Geoffrey Leech (p. 14–126). Longman.

Schönefeld, D. (1999). Corpus linguistics and cognitivism. International Journal of Corpus Linguistics, 4(1), 137–171. https://doi.org/10.1075/ijcl.4.1.07sch

tornar al principi

Corpus escrits

Calzolari, N. (1998). An overview of written language resources in Europe: A few reflections, facts and a vision. A A. J. Rubio Ayuso, N. Gallardo, R. Castro i A. Tejada (Ed.), First International Conference on Language Resources and Evaluation: Proceedings. Granada, Spain, 28-30 May, 1998 (Vol. 1, p. 217–224). European Language Resources Association (ELRA).

Ejerhed, E. i Church, K. (1997). Writen language corpora. A R. A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen i V. Zue (Ed.), Survey of the state of the art in human language technology (p. 359–362). Cambridge University Press; Giardini. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.366.9300

tornar al principi

Estàndards en corpus escrits

✓ = Lectures recomanades: nivell introductori

Arrarte, G. (1999). Normas y estándares para la codificación de textos y para la ingeniería lingüística. A J. M. Blecua, G. Clavería, C. Sánchez i J. Torruella (Ed.), Filología e informática: nuevas tecnologías en los estudios filológicos (p. 17–44). Universitat Autònoma de Barcelona, Departamento de Filología Española, Seminario de Filología e Informática; Editorial Milenio.

✓ Oliver, A. i Moré, J. (2007). Formats de codificació de text i de dades: característiques i tractament. A S. Climent (Coord.), Traducció i tecnologies (p. 107–144). Editorial UOC.

SGML (Standard Generalized Markup Language) i XML (eXtensible Markup Language)

Barcala, M., Blanco, C. i Darriba, V. M. (2006). Metodología para la construcción de córpora textuales estructurados basados en XML. Procesamiento del Lenguaje Natural, 36, 9–16. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/2815/1314

Burnard, L. (1995). What is SGML and how does it help? Computers and the Humanities, 29(1), 41–50. https://www.jstor.org/stable/30200342

✓ Hawkins, K. S. (2019, 31 d’octubre). Introduction to XML for text. http://www.ultraslavonic.info/intro-to-xml/

✓ Oliver, A. i Moré, J. (2007). Llenguatges de marcatge: HTML i XML. A S. Climent (Coord.), Traducció i tecnologies (p. 145–170). Editorial UOC.

Pino, M. i Santalla, M. P. (1996). Codificación de la anotación morfosintáctica en SGML. Procesamiento del Lenguaje Natural, 19, 101–117. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3751/2209

TEI Consortium (Ed.). (2021). A Gentle Introduction to XML. A P5: Guidelines for Electronic Text Encoding and Interchange [Version 4.2.2. Last updated on 9th April 2021]. Text Encoding Initiative. https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html

Vivaldi, J., de Yzaguirre, L., Solé, X. i Cabré, M. T. (1996). Marcatge estructural i morfosintàctic del Corpus Tècnic amb l’estàndard SGML. Universitat Pompeu Fabra, Institut Universitari de Lingüística Aplicada. http://hdl.handle.net/10230/4514

TEI, Text Encoding Initiative

Burnard, L. (1995). The Text Encoding Initiative: An overview. A G. Leech, G. Myers i J. Thomas (Ed.), Spoken English on computer: Transcription, mark-up and application (p. 69–81). Longman. https://doi.org/10.4324/9781315843162

Burnard, L. i Sperberg-McQueen, C. M. (2012, agost). TEI Lite. Text Encoding Initiative. https://tei-c.org/Guidelines/Customization/Lite/

Ide, N. i Véronis, J. (Ed.). (1995). Text Encoding Initiative: Background and context. Springer. https://doi.org/10.1007/978-94-011-0325-1

TEI Consortium (Ed.). (2021). TEI P5: Guidelines for Electronic Text Encoding and Interchange [Version 4.3.2 Last updated on 9th April 2021]. Text Encoding Initiative. https://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html

TEI, Text Encoding Initiative

EAGLES, Expert Advisory Group on Language Engineering Standards

Expert Advisory Group on Language Engineering Standards (EAGLES). (1996). Browse the EAGLES Guidelines. Welcome to EAGLES on line. http://www.ilc.cnr.it/EAGLES96/browse.html

Ide, N. i Priest-Dorman, G. (2000, 20 de març). Corpus Encoding Standard. Vassar College, Computer Science Department Wiki. https://www.cs.vassar.edu/CES/

Zampolli, A. i Calzolari, N. (1994). Standards to make natural languages resources shareable. A Y. Matsumoto i T. Togunaka (Ed.), Procedings of the International Workshop on Sharable Natural Language Resources. Nara, Japan, 10-11 August, 1994 (p. 15–21). Institute of Science; Technology. http://www.ilc.cnr.it/AZ_bibliography/Z133.PDF

EAGLES, Expert Advisory Group on Language Engineering Standards

tornar al principi

Disseny de corpus escrits i tipologia textual

Alvar Ezquerra, M. – Corpas Pastor, G. (1994) "Criterios de diseño para la creación de córpora", in Alvar Ezquerra, M. – Villena Ponsoda, J.A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga. p. 31-40.

Atkins, S. – Clear, J. – Ostler, N. (1992) "Corpus design criteria", Literary and Linguistic Computing 7, 1: 1-16.

Biber, D. (1989) " A typology of English texts", Linguistics 27: 3-43

Biber, D. (1993) "Representativeness in corpus design", Literary and Linguistic Computing 8, 4: 243-257.

Biber, D. – Finegan, E. (1986) "An initial typology of English text types", in Aarts, J. – Meijs, W. (Ed.) Corpus Linguistics II. New Studies in the Analysis and Exploitation of Computer Corpora. Amsterdam: Rodopi. p. 19-46.

Clear, J. (1992) "Corpus sampling", in Leitner, G. (Ed.) New Directions in English Language Corpora. Methodology, Results, Software Development. Berlin: Mouton de Gruyter. p. 21-32.

Dash, N. S. y Arulmozi, S. (2018). History, features and typology of language corpora. Springer. https://doi.org/10.1007/978-981-10-7458-5

de Haan, P. (1992) "The optimum corpus sample size?", in Leitner, G. (Ed.) New Directions in English Language Corpora. Methodology, Results, Software Development. Berlin: Mouton de Gruyter. p. 3-20.

López Guzmán, J. M. (1994) "Adquisición y reusabilidad de materiales en la creación de corpus", in Alvar Ezquerra, M. – Villena Ponsoda, J. A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga. p. 47-62.

Quirk, R. (1992) "On corpus principles and design", in Svartvik, J. (Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm 4-8 August 1991. Berlin: Mouton de Gruyter. p. 457-470

Renouf, A. (1987) "Corpus development" in Sinclair, J. (Ed.) Looking Up, An Account of the COBUILD Project. London: Collins. p. 1-40

Sinclair, J. (1996) Preliminary Recommendations on Corpus Typology. EAGLES Document EAG-TCWG-CTYP/P, May 1996. http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html

Sinclair, J.– Ball, C. (1996) Preliminary Recommendations on Text Typology. EAGLES Documents EAG-TCWG-TTYP/P, June 1996. http://www.ilc.cnr.it/EAGLES96/texttyp/texttyp.html

Torruella, J. i Llisterri, J. (1999). Diseño de corpus textuales y orales. A J. M. Blecua, G. Clavería, C. Sánchez, i J. Torruella (Ed.), Filología e informática. Nuevas tecnologías en los estudios lingüísticos. (p. 45-77). Barcelona: Seminari de Filologia i Informàtica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona – Editorial Milenio. Consultat a https://joaquimllisterri.cat/publicacions/Torruella_Llisterri_99.pdf

tornar al principi

Tractament informàtic de corpus escrits

✓ = Lectures recomanades: nivell introductori

Abaitua, J. (2002) "Tratamiento de corpora bilingües", in Martí, M. A. – Llisterri, J. (Ed.) (2002) Tratamiento del lenguaje natural. Tecnología de la lengua oral y escrita. Barcelona: Edicions Universitat de Barcelona – Fundación Duques de Soria (Biblioteca de la Universitat de Barcelona, Manuals, 53). p. 61-90. http://paginaspersonales.deusto.es/abaitua/konzeptu/ta/soria00.pdf

Baayen, R.H. (2001) Word Frequency Distributions. Dordrecht – Boston – London: Kluwer Academic Publishers (Text, Speech and Language Technology, 18).

1.– Word frequencies; 2.– Non-parametric models; 3.– Parametric models; 4.– Mixture distributions; 5.– The randomness assumption; 6.– Examples of applications.

✓ Badia, T. (1996) "El processament computacional de corpus. Tècniques automàtiques d’anàlisi morfològica i sintàctica", in Payrató, Ll. – Boix, E. – Lloret, M.– R. – Lorente, M. (Ed.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. p. 217-254.

✓ Barnbrook, G. (1996) Language and Computers. A Practical Introduction to the Computer Analysis of Language. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics).

1.– Why use a computer; 2.– First capture your data; 3.– Examining the catch: using frequency lists; 4.– Studying the environment: using concordances; 5.– The sociology of words: collocations; 6.– Putting them in their place: tagging, parsing and so on; 7.– The leading edge: applications of natural language processing; 8.– Case studies.

Bod, R. – Scha, R. (1997) "Data-Oriented Language Processing", in Young, S. – Bloothooft, G. (Ed.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) p. 137-173.

Burnard, L. (1992) "Tools and Techniques for Computer-assisted Text Processing", in Butler, C.S. (Ed.) Computers and Written Texts. Oxford: Basil Blackwell (Applied Language Studies) p. 1-28.

Fiormonte, D. (2003) Scrittura e filologia nell’era digitale. Torino: Bollati Boringhieri. [A.1.2 Software per l’analisi del testo]

García-Macho, M.L. – Periñán, B. – Saba, A. – Sassi, M. (1998) "Análisis de textos mediante la ayuda del ordenador. Puesta a punto de una metodología para confeccionar concordancias lematizadas de textos medievales y renacentistas", Revista Española de Lingüística 28,1: 131-148.

Gil Salom, L. – Soler Monreal, C. – Stuart, K. (2001) "ACIA: una herramienta computacional de concordancias y anotación lingüística", in Moreno, A.I. – Colwell, V. (Ed.) Perspectivas recientes sobre el discurso. Recent perspectives on discourse. León: Secretariado de Publicaciones y Medios Audiovisuales, Universidad de León – AESLA, Asociación Española de Lingüística Aplicada. (+ CD-ROM). p. 205.

Gries, S. T. (2009). Quantitative corpus linguistics with R. A practical introduction. Oxford: Routledge.

Lebart, L. – Salem, A. – Berry, L. (1998) Exploring Textual Data. Dordrecht – Boston – London: Kluwer Academic Publishers (Text, Speech and Language Technology, 4).

1.– Textual statistics: scope and applications; 2.– The units of textual statistics; 3.– Correspondence analysis of lexical tables; 4.– Cluster analysis of words and texts; 5.– Visualization of textual data; 6.– Characteristic textual units, modal responses and modal texts; 7.– Longitudinal partitions, textual time series; 8.– Textual discriminant analysis.

✓ McCarty, W. (2007). The basics of concording. AV100 fundamentals of the digital humanities (2007-2008) [Web page]. London: King’s College. Consultat a http://miraclesinactionpress.com/dthomp74/2007/docs/concord.html

Parodi, G. (2007) "El Grial: Interfaz computacional para anotación en interrogación de corpus en español", in Parodi, G. (Ed.) Lingüística de corpus y discursos especializados: puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso, Pontificia Universidad Católica de Valparaíso. p. 31-52.

Pérez Guerra, J. (1998) Análisis computarizado de textos. Una introducción a TACT. Prólogo de John Bradley. Vigo: Universidade de Vigo, Servicio de Publicación (Monografías da Universidade de Vigo, Humanidades e Ciencias Xurídico-Sociais, 13).

Parte I- Introducción a la lingüística de corpus; 1. Introducción. Los corpus y la lingüística; 2. Historia de la lingüística de corpus; 3. Concepto de "corpus de textos". Hacia el corpus electrónico; 3.1 Introducción; 3.2 Tamaño del corpus; 3.3 Rigor en la selección del material; 3.4 Codificación de los textos; 4. Anotaciones en los corpus; 4.1 Introducción; 4.2 Categorías de anotación; 4.3 COCOA: la versatilidad al servicio de la simplificación; 4.4 Hacia el estándar de la anotación textual: SGML-TEI; 4.5 De SGML a TDB: una introducción a SGML2TDB; 5. Creando nuestro corpus informatizado: computarizando el texto. Parte II – Introducción al análisis textual asistido por ordenador: TACT; 1. Introducción; 2. TACT como herramienta de análisis textual: aspectos introductorios; 3. Eligiendo y preparando el texto para su análisis mediante TACT; 4. TACT al completo; 4.1 Los primeros pasos; 4.2 Haciendo la base de datos textuales: MakeBase; 4.3 Creando un TDB específico para textos HSMS: HSMS2TDB; 4.4 Búsquedas en la base de datos textuales: UseBase ; 4.5 Manejo de corpus de grandes dimensiones: MergeBas y BuildBat; 4.6 Anotando automáticamente corpus crudos mediante diccionarios electrónicos: PreProc, MakeDCT, TagText y SatDCT; 4.7 Similitudes léxicas y lexicográficas de palabras y frases: Anagrams y CollGen; 4.8 Subprogramas de manipulación de datos: TACTFreq, TACTSort y Fcompare; 4.9 Obteniendo información estadística de las palabras en el corpus: TACTStat; 5. Nuestros TDB en Internet: TACTWEB. Apéndices – 1. DTD de TEI Lite (un extracto con elementos y atributos manejados en Parte I); 2. Elementos y atributos de TEI Lite; 3. Más sobre TACT ; Extensiones de los archivos producidos por TACT; Tutoriales sobre TACT vía Internet; Niebla.txt (con anotaciones); Niebla.mks; Esquema general de TACT; 4. Glosario General de términos frecuentes; 5. Fuentes de textos electrónicos (español e inglés) a través de Internet; 6. Referencias; Algunas referencias bibliográficas útiles; Texto empleado; Revistas especializadas; Otras referencias de interés.

Reppen, R. (2001) "Review of MonoConc Pro and WordSmith Tools", Language Learning and Technology 5, 3: 32-36. https://www.lltjournal.org/item/3053

Ruiz Ureña, R.J. – García Piñeiro, V. (1996) "Cuatro programas para la gestión de conjuntos de texto en soporte informático: Lexa, MicroConcord, Tact y WordCruncher", in Luque Durán, J. de D. – Pamies Bertrán, A. (Ed.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. p. 123-131.

Sassi, M. (1999) "Concordancias para filólogos: en pos de la simplicidad", in Blecua, J. M.. – Clavería, G. – Sánchez, C. – Torruella, J. (Ed.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona – Editorial Milenio. p. 165-182.

Sinclair, J. – Mason, O. – Ball, J. – Barnbrook, G. (1997) "Language independent statistical software for corpus exploration", Computers in the Humanities 31, 3: 229-255.

Venegas, R. – Silva, J. (2007) "«El Manchador de Textos»: Una herramienta computacional para el análisis de textos", in Parodi, G. (Ed.) Lingüística de corpus y discursos especializados: puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso, Pontificia Universidad Católica de Valparaíso. p. 53-78.

de Yzaguirre, Ll. (1996) "Els lingüicials dels corpus UB", in Payrató, Ll. – Boix, E. – Lloret, M.– R. – Lorente, M. (Ed.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. p. 297-304.

❯ Herramientas de análisis textual

tornar al principi

Anotació de corpus escrits

✓ = Lectures recomanades: nivell introductori

Abney, S. (1997) "Part-of-Speech Tagging and Partial Parsing", in Young, S. – Bloothooft, G. (Ed.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) p. 118-136.

Bateman, J. – Forrest, J. – Willis, T. (1997) "The use of syntactic annotation tools: partial and full parsing", in Garside, R .– Leech, G. – McEnery, T. (Ed.)Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 166-178.

Berber Sardinha, T. (1999) Usando WordSmith Tools na pesquisa lingüística. DIRECT Paper 40. LAEL, Pontifícia Universidade Católica de São Paulo – AELSU, University of Liverpool. http://www2.lael.pucsp.br/direct/DirectPapers40.pdf

Berber Sardinha, T. (1999) "Search tools for corpus exploration", in I Encontro de Estudos de Corpus. Universidade de São Paulo, São Paulo. 14-15 outoubro 1999. http://www2.lael.pucsp.br/~tony/temp/publications/1999ferramentas_usp.pdf

Civit Torruella, M. (2003) Criterios de etiquetación y desambiguación morfosintáctica de corpus en español. Alicante: Sociedad Española para el Procesamiento del Lenguaje Natural (Colección de Monografías de la Sociedad Española para el Procesamiento del Lenguaje Natural, 3). http://www.sepln.org/wp-content/uploads/2011/02/monografiaCivit.pdf

1.– Marco general: La Lingüística de Corpus; 2.– Anotación morfológica; 3.– Desambiguación morfológica; 4.– Análisis sintáctico del español: GramEsp; 5.– Anotación sintáctica de corpus; 6.– Conclusiones; Apéndices: A.– Locuciones; B.– GramEsp; C.– Etiquetas utilizadas para la anotación de Cast3LB; D.– Corpus CLiC-TALP desambiguado; E.– Corpus CLiC-TALP analizado sintácticamente; F.– Corpus CLiC-TALP anotado sintácticamente.

Fligelstone, S. – Pacey, M. – Rayson, P. (1997) "How to generalize the task of annotation", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 122-136.

Garside, R. – Fligelstone, S. – Botley, S. (1997) "Discourse annotation: anaphoric relations in corpora", in Garside, R .– Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 66-84.

✓ Garside, R. – Leech, G. – McEnery, T. (Ed.) (1997) Corpus Annotation: Linguistic Information from Computer Text Corpora. Harlow: Addison Wesley Longman.

Garside, R. – Rayson, P. (1997) "Higher-level annotation tools", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 179-193.

McEnery, T. – Rayson, P. (1997) "A corpus / annotation toolbox", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 194-208.

Leech, G. (1997) "Grammatical tagging", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 19-33.

Kahrel, P.– Barnett, R. – Leech, G. (1997) "Towards cross-linguistic standards or guidelines for the annotation of corpora", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 231-242.

Leech, G. (1997) "Introducing corpus annotation", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 1-18.

Leech, G. – Barnett, R. – Kahrel, P. (1996) Preliminary Recommendations for the Syntactic Annotation of Corpora. EAGLES Document EAG-TCWG-SASG1/P-B, March 1996. http://www.ilc.cnr.it/EAGLES96/segsasg1/segsasg1.html

Leech, G. – Eyes, E. (1997) "Syntactic annotation: treebanks", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 34-52.

Leech, G. – McEnery, T. – Wynne, M. (1997) "Further levels of annotation", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 85-101.

Leech, G. – Wilson, A. (1996) Recommendations for the Morphosyntactic Annotation of Corpora. EAGLES Document EAG-TCWG-MAC/R, March 1996. Consultat a http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html

López Guzmán, J. M. (1994) "Niveles de representación de textos escritos", in Alvar Ezquerra, M. – Villena Ponsoda, J. A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga. p. 63-72

Moreno, A. – López, S. – Sánchez, F. – Grishman, R. (2002) "Developing a syntactic annotation scheme and tools for a Spanish treebank", in Abeillé, A. (Ed.) Building and using syntactically annotated corpora. Dordrecht: Kluwer (Text, Speech and LanguageTechnology).

Pérez Guerra, J. (1999) "Estándares de anotación en lingüística de corpus", in Gómez Guinovart, J. – Lorenzo Suárez, A. – Pérez Guerra, J. – Álvarez Lugrís, A. (Ed.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. p.25-52.

Ribera, X. – Molina, A. – Pla, F. (2000) "Herramientas para el etiquetado léxico y análisis sintáctico de textos orientados a la construcción de corpus supervisados", Procesamiento del Lenguaje Natural, Revista nº 26: 119-124. http://www.sepln.org/revistaSEPLN/revista/26/ribera.pdf

Ruiz Miyares, E. – Zamora Matamoros, L. (2000) "Análisis estadístico del comportamiento del primer etiquetador cubano en tres diferentes corpus de la prensa", Procesamiento del Lenguaje Natural, Revista nº 26: 133-140. http://www.sepln.org/revistaSEPLN/revista/26/ruiz-miyares.pdf

Sánchez, F. – Porta, J. – Sancho, J. L. – Nieto, A. – Ballester, A. – Fernández, A. – Gómez, J. – Gómez, L. – Raigal, E. – Ruiz, R. (1999) "La anotación de los corpus CREA y CORDE", Procesamiento del Lenguaje Natural, Revista nº 25: 175-182. http://www.sepln.org/revistaSEPLN/revista/25/25-Pag175.pdf

Wilson, A. – Thomas, J. (1997) "Semantic annotation", in Garside, R. – Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 53-65

tornar al principi

Projectes sobre corpus escrits

Projectes sobre corpus escrits: català

Bach, C. – Saurí, R. – Vivaldi, J. – Cabré, M. T. (1997) El corpus de l’IULA: descripció. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 17). http://hdl.handle.net/10230/1299

Cabré, M. T. – de Yzaguirre, Ll. – Lorente, M. (1996) "El projecte CECA (Corpus escrit del català)", in Payrató, Ll.– Boix, E.– Lloret, M.– R.– Lorente, M. (Ed.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. p. 115-126.

Cabré, M. T. – Vivaldi, J. – de Yzaguirre, Ll. – Solé, X. (1996) Marcatge estructural i morfosintàctic del corpus tècnic amb l’estàndard SGML. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 1). http://hdl.handle.net/10230/4514

Cabré, M. T. – Morel, J. – Torner, S. – Vivaldi, J. (1997) El corpus de l’IULA: etiquetaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 18). http://hdl.handle.net/10230/1293

Rafel, J. (1992-93) "El ’Diccionari del català contemporani’: Treballs realitzats i previsions de futur", Llengua i Literatura 5: 733-737.

Rafel, J. (1996) "El Diccionari del català contemporani i el Corpus textual informatitzat de la llengua catalana", in Payrató, Ll.– Boix, E.– Lloret, M.– R.– Lorente, M. (Ed.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2).Barcelona: Promociones y Publicaciones Universitarias SA. p. 71-92.

Projectes sobre corpus escrits: espanyol

Aguado, G., Bernardos, M. S., Gómez Pérez, A., Gracia, J., Montiel, E., Sebastián, S., Bel, N., Marimon, M. i Forcada, M. L. (2016). Inventario de recursos lingüísticos de la administración pública para la traducción automática. Madrid: Plan de Impulso de las Tecnologías del Lenguaje, Secretaría de Estado para la Sociedad de la Información y la Agenda Digital, Ministerio de Energía, Turismo y Agenda Digital. Consultat a https://www.plantl.gob.es/tecnologias-lenguaje/actividades/estudios/Paginas/recursos-traduccion-automatica.aspx

Alvar Ezquerra, M. – Villena Ponsoda, J. A. (Coord.) (1994) Estudios para un corpus del español. Málaga: Universidad de Málaga (Anejo 7 de Analecta Malacitana, Revista de la Sección de Filología de la Facultad de Filosofía y Letras de Málaga)

Alvar Ezquerra, M. – Blanco , M. J. – Pérez Lagos, F. (1994) "Diseño de un corpus español en el marco de un corpus europeo", in Alvar Ezquerra, M. – Villena Ponsoda, J. A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. p. 9-30

Battaner, M. P. (2000) "Un corpus para la enseñanza: Corpus PAAU, junio 1992", in Battaner, M. P. – López, C. (Ed.) VI Jornada de Corpus Lingüístics. Corpus lingüístics i ensenyament de llengües. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra. p. 41-64.

Bermejo, I. – Carreras, X. – Castell, N. – Castellón, I. – Coello, E. – Gonzalo, J. – Kalfon, N. – Martí, M. A. – RODRÍGUEZ, S. – Padró, L. – Peñas, A. – Read, T. – Verdejo, M. F. (2000) "RILE: Servidor de Recursos para el desarrollo de la Ingeniería Lingüística en Español", Procesamiento del Lenguaje Natural, Revista nº 26: 141-142. http://www.sepln.org/revistaSEPLN/revista/26/bermejo.pdf

Civit, M. – Castellón, I. – Martí, M. A. (2001) "Creación, etiquetación y desambiguación de un corpus de referencia del español", Procesamiento del Lenguaje Natural, Revista n. 27: 21-28. http://www.sepln.org/revistaSEPLN/revista/27/27-articulo2.pdf

Civit, M. – Martí, M. A. (2002) "Design Principles for a Spanish Treebank", in TLT02, First Workshop on Treebanks and Linguistic Theories. Sozopol, Bulgaria. https://www.semanticscholar.org/paper/Design-Principles-for-a-Spanish-Treebank-Torruella/1555325552c5763a71414ccb4773d353724f1ea3

García-Miguel, J. M. "Corpus de textos analizados sintácticamente", en Gómez Guinovart (Ed.) Aplicaciones lingüísticas de la informática. Santiago de Compostela: Tórculo. p.19-34.

García Platero, J. M. (1994) "Resultados de la encuesta en España sobre la necesidad de un corpus textual", in Alvar Ezquerra, M. – Villena Ponsoda, J. A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. p. 41-46

McEnery, T. – Wilson, A. – Sánchez, F. – Nieto, A. (1997) "Multilingual Resources for European languages: Contributions of the CRATER Project", Literary and Linguistic Computing 12, 4: 219-226.

Moreno, A. – López, S. – Sánchez, F. – Grishman, R. (2002) "Developing a syntactic annotation scheme and tools for a Spanish treebank", in ABEILLÉ, A. (Ed.) Building and using syntactically annotated corpora. Dordrecht: Kluwer (Text, Speech and LanguageTechnology).

Rojo, G. (1992) "El futuro Diccionario de construcciones verbales del español actual" in Martín Vide, C. (Ed.) Lenguajes Naturales y Lenguajes Formales VIII. Actas del VIII Congreso de Lenguajes Naturales y Lenguajes Formales, Gerona, 1992. Barcelona: PPU. p. 41-50

Rojo, G. (1993) "La base de datos sintácticos del español actual", Español actual, 59: 15-20

Sánchez, F. – Porta, J. – Sancho, J. L. – Nieto, A. – Ballester, A. – Fernández, A. – Gómez, J. – Gómez, L. – Raigal, E. – Ruiz, R. (1999) "La anotación de los corpus CREA y CORDE", Procesamiento del Lenguaje Natural, Revista nº 25: 175-182. http://www.sepln.org/revistaSEPLN/revista/25/25-Pag175.pdf

Sánchez, A. – Cantos, P. (1997) "Predictability of word forms (types) and lemmas in linguistic corpora. A case study based on the analysis of the CUMBRE corpus: An 8-million-word corpus of contemporary Spanish", International Journal of Corpus Linguistics 2,2: 259-280.

Sánchez, A. – Sarmiento, R. – Cantos, P. – Simón, J. (1995) Cumbre. Corpus lingüístico del español contemporáneo. Fundamentos, metodología y aplicaciones. Madrid: SGEL.

Sebastián, N. – Cuetos, F. – Martí, M. A. – Carreiras, M.F. (2000) LEXESP: Léxico informatizado del español. Edición en CD-ROM. Barcelona: Edicions de la Universitat de Barcelona (Col·lecions Vàries, 14).

Vera Luján, A. (1998) "Los medios de comunicación como recurso lingüístico (proyecto de acopio y distribución de materiales lingüísticos. Instituto Cervantes, España)", in La lengua española y los medios de comunicación. México: Siglo XXI Editores en coedición con la Secretaría de Educación Pública (México) y el Instituto Cervantes (España). Vol 2. p. 1331-1338. http://congresosdelalengua.es/zacatecas/ponencias/tecnologias/proyectos/vera.htm

❯ Corpus textuales en español

tornar al principi

Aplicacions dels corpus escrits

Berglund, Y. (1999) "Exploiting a Large Spoken Corpus: an End-user’s Way to the BNC", International Journal of Corpus Linguistics 4, 1: 29-52.

Dash, N. S. i Ramamoorthy, L. N. (2019). Utility and application of language corpora. Springer. https://doi.org/10.1007/978-981-13-1801-6

1.– Issues in text corpus generation; 2.– Process of text corpus generation; 3.– Corpus editing and text normalization; 4.– Statistical studies on language corpus; 5.– Processing texts in a corpus; 6.– Corpus as a primary resource for ELT; 7.– Corpus as a secondary resource for ELT; 8.– Corpus and dictionary making; 9.– Corpus and dialect study; 10- Corpus and word sense disambiguation; 11.– Corpus ans technical TermBank; 12.– Corpus and machine translation; 13.– Corpus and some other domains; 14.– Language corpora: The Indian scenario; 15.– Corpus and future Indian needs.

Hockey, S. (2001) Electronic Texts in the Humanities. Principles and Practices. Oxford: Oxford University Press.

1.– Why electronic texts?; 2.– Creating and acquiring electronic texts; 3.– Text encoding; 4.– Concordance and text retrieval programs; 5.– Literary analysis; 6.– Linguistic analysis; 7.– Stylometry and attribution studies; 8.– Textual criticism and electronic editions; 9.– Dictionaries and lexical databases; 10- Where next?

Blanco, X. (1996) "La explotación de corpora textuales en soporte electrónico", in Alonso, E. – Bruña, M. – Muñoz, M. (Ed.) La lingüística francesa: gramática, historia, epistemología. Sevilla: Grupo Andaluz de Pragmática. vol. 2 p. 115-122.

Aplicacions dels corpus escrits: processament del llenguatge natural

Aguado, G. – Bernardos, M. S. (2000) "Método para la elaboración de un corpus para la generación automática de lenguaje natural", Procesamiento del Lenguaje Natural, Revista nº 26: 19-26. http://www.sepln.org/revistaSEPLN/revista/26/aguado-de-cea.pdf

Álvarez, C. – Alvariño, P. – Gil, A. – Romero, T. – Santalla, M. P. – Sotelo, S. (1998) "AVALON, una gramática formal basada en corpus", Procesamiento del Lenguaje Natural, Revista nº 23: 132-139. http://www.sepln.org/revistaSEPLN/revista/23/23-Pag132.pdf

Armstrong, S. – Church, K. – Isabelle, P. – Manzi, S. – Tzoukermann, E. – Yarowsky, D. (Ed.) (1999) Natural Language Processing Using Very Large Corpora. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 11).

Knill, K. – Young, S. (1997) "Hidden Markov Models in Speech and Language Processing", in Young, S. – Bloothooft, G. (Ed.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) p. 27-68

McNaught, J. (1993) "User Needs for Textual Corpora in Natural Language Processing", Literary and Linguistic Computing, 8,4.

Ney, H. (1997) "Corpus-Based Statistical Methods in Speech and Language Processing", in Young, S. – Bloothooft, G. (Ed.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) p. 1-26.

Ney, H. – Martin, S. – Wessel, F. (1997) "Statistical Language Modeling Using Leaving-One-Out", in Young, S. – Bloothooft, G. (Ed.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) p. 174-207

Souter, C. – Atwell, E. (Ed.) (1993) Corpus Based Computational Linguistics. Amsterdam: Rodopi.

Aplicacions dels corpus escrits: anàlisi lingüística

Aarts, J. (1991) "Intuition-based and observation-based grammars" in Aijmer, K. – Altenberg, B. (Ed.) English Corpus Linguistics. Sudies in Honour of Jan Svartvik. London: Longman.

Baker, P. (2010). Sociolinguistics and corpus linguistics. Edinburgh: Edinburgh University Press.

Biber, D. (1985) "Investigating macroscopic textual variation through multifeature / multidimensional analyses", Linguistics 23: 337-360.

Biber, D. (1990) "Methodological issues regarding corpus-based analyses of linguistic variation", Literary and Linguistic Computing 5,4: 257-269

Biber, D. (1992) "On the complexity of discourse complexity: a multidimensional analysis", Discourse Processes 15,2: 133-164.

Biber, D. (1992) "The Multi-Dimensional Approach to Linguistic Analyses of Genre Variation: An Overwiew of Methodology and Findings", Computers and the Humanities, 26, 5-6: 331-345.

Biber, D. (1993) "Co-occurrence patterns among collocations: A tool for corpus-based lexical knowledge acquisition", Computational Linguistics 19, 3: 531-538

Biber, D. (1993) "Using Register-Diversified Corpora for General Language Studies" Computational Linguistics 19 2: 219-242

Biber, D. – Finegan, E. (1986) "An initial typology of English text types" in Aarts, J.– MEIJS, W. (Ed.) Corpus Linguistics II. New Studies in the Analysis and Exploitation of Computer Corpora. Amsterdam: Rodopi p. 19-46

Biber, D. – Finegan, E. (1991) "On the exploitation of computerized corpora in variation studies", in Aijmer, K. – Altenberg, B. (Ed.) English Corpus Linguistics. Sudies in Honour of Jan Svartvik. London: Longman. p. 204-220

Gómez Guinovart, J. (1993) "Análisis lingüístico de un corpus de textos periodísticos en soporte informático" in Martín Vide, C. (Ed.) Lenguajes Naturales y Lenguajes Formales IX. Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, Reus, 20-22 de diciembre de 1993. Barcelona: PPU. p. 323-329.

Oostdijk, N. (1988) "A corpus for studying linguistic variation", ICAME Journal 12: 3-14.

Oostdijk, N. (1988) "A corpus linguistic approach to linguistic variation", Literary and Linguistic Computing 3,1: 12-25.

Aplicacions dels corpus escrits: lexicografia i terminologia

Cicle de conferències 94-95. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 1996. http://www.iula.upf.edu/publi002.htm

Cicle de conferències 95-96. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 1997. http://www.iula.upf.edu/publi003.htm

Cicle de conferències 96-97. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 1998. http://www.iula.upf.edu/publi010.htm

Cicle de conferències i seminaris 97-98. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 2000. http://www.iula.upf.edu/publi013.htm

McEnery, T. – langé, J. – M. – Oakes, M. – Véronis, J. (1997) "The exploitation of multilingual annotated corpora for term extraction", in Garside, R .– Leech, G. – McEnery, T. (Ed.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London i New York: Longman. p. 220-230.

Teubert, W. (2001) "Corpus linguistics and lexicography", International Journal of Corpus Linguistics 6: 125-153.

Aplicacions dels corpus escrits: ensenyament de llengües

Lingüística de corpus i ensenyament de llengües

tornar al principi

Recursos lingüístics per a llengües minoritzades

First Steps in Language Documentation for Minority Languages. Computational Linguistic Tools for Morphology, Lexicon and Corpus Compilation. Proceedings of the SALTMIL Workshop. LREC 2004. 4th International Conference on Language Resources and Evaluation. 26-28 May, 2004. Lisbon, Portugal.

Krauwer, S. (2003) "The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap", in SPECOM 2003. International Workshop "Speech and Computer". 27-29 October 2003, Moscow, Russia. http://www.elsnet.org/dox/krauwer-specom2003.pdf

Ó Cróinín, D. (Ed.) (2000) Proceedings of the Workshop on Developing Language Resources for Minority Languages: Reusability and Strategic Priorities. LREC 2000, Second International Conference on Language Resources and Evaluation. Athens, Greece, 30 May 2000. European Language Resources Association.

Proceedings of the International LREC Workshop on Resources and Tools in Field Linguistics. LREC 2002.Third International Conference on Language Resources and Evaluation. Las Palmas, 26-27 May 2002.

tornar al principi

Corpus orals i corpus de llengua oral

Corpus orals i corpus de llengua oral


Lingüística de corpus i corpus escrits – Bibliografia
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La pàgina va ser modificada per darrera vegada el