Corpus i bases de dades orals actuals

Metodologia de recollida de corpus orals (1993-1994)


1. Presentació general

1.1. Bases de dades i corpus

Els corpus actuals de llengua oral com a resultat de la convergència de tres tradicions: la lingüística de corpus, la fonètica experimental i la tecnologia de la parla.

1.2. Objectius i utilitat de les bases de dades orals

Els corpus i les bases de dades com a model per a la descripció fonètica, la descripció lingüística i com a eina per a les aplicacions en els sistemes de comunicació home-màquina.

1.3. Enfocaments en el disseny d’una base de dades de llengua oral

Corpus i bases de dades per a l’estudi dels universals fonètics i fonològics, per a la descripció fonètica de la llengua, per al desenvolupament de sistemes de síntesi i reconeixement i per a l’estudi lingüístic de la llengua oral.

1.4. El format de les bases de dades orals

Elements mínims en una base de dades o corpus oral: enregistrament del senyal acústic, transcripció fonètica i ortogràfica, etiquetat, alineació, anotació i documentació.

Referències

CARRÉ, R. (1991) «Los bancos de sonidos», in VIDAL BENEYTO, J. ( Dir) Las industrias de la lengua. Trad. de M. Alvar et al. Salamanca / Madrid: Fundación Sánchez Ruipérez / Pirámide ( Biblioteca del Libro, 5 ). pp. 108-118

CARRÉ, R. (1992) «Speech Databases» in AINSWORTH, W. (Ed) Advances in Speech, Hearing and Language Processing. Volume 2. London: Jai Press. pp. 199-216.

CASTAGNERI, G. (Ed) (1991) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ). Organized by CSELT in cooperation with CEC DGXIII, ESCA, ESPRIT PROJECT 2589 (SAM)

DOLMAZON, J. M. (1991) «Towards International Vocal Database Standards», in CASTAGNERI, G. (Ed) (1991) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28

GOLDSMITH, M.- FULLER, H. (1991) «Speech Database Construction», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).

JONES, K. - MARIANI, J. (Eds) (1992) Proceedings of the 1992 Workshop of the International Coordinating Committee on Speech Databasesand Speech I/O Systems Assessment. Monday, 12 October 1992. Banff Springs Hotel, Banff, Canada.

LAMEL, L. F.(1992) «Report on Speech Corpora Development in the U. S.», NESCA - The ESCA Newsletter 8: 7-10

PALLET, D. (1992) «Speech Corpora Produced on CD-ROM Media by The National Institute of Standards and Technology (NIST)», Integrating Speech and Natural Language. University College Dublin, 15-17 July 1992. pp. 173-193

Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989.

2. Els inventaris fonètics i fonològics

2.1. Objectius i continguts lingüístics

Inventaris per a l’estudi dels universals lingüístics i per a la comparació entre inventaris fonètics i fonològics de les llengües. Contenen descripcions - amb o sense el senyal acústic - de sistemes fonològics ordenades en una base de dades.

2.2. Els principals inventaris actuals

2.2.1. Kay Phonetic Database

Il.lustració de sons i transcripcions de 25 llengües del món. Presentació de contrastos fonològics, realització fonètica i parla contínua.

2.2.2. Oxford Acoustic Database

Il.lustració de grups CV i VC (accentuats i no accentuats) inclosos en paraules en 8 llengües. Dos parlants masculins i dos parlants femenins per llengua.

Referències

PICKERING, J.B.- ROSNER, B. S (1993) The Oxford Acoustic Phonetic Database on Compact Disk. Oxford: Oxford University Press (2 CD)

2.2.3.SPA- Stanford Phonological Archive

Mostra d’inventaris fonètics i fonològics de 690 llengües extrets de publicacions. Transcripció fonètica, inventari de cada llengua, informació prosòdica i informació sobre la distribució de fonemes.

Referències

CROTHERS, J. (1978) «Typology and Universals of Vowel Systems» in J. H. GREENBERG-FERGUSON, C.A.- MORAVCSIK, E. A. (Eds.) Universals of Human Language . Volume 2: Phonology. Stanford: Stanford University Press. pp. 93-152.

2.2.4. UPSID - University of California Los Angeles - Phonological Segment Inventory Database

Inventari fonètic i fonològic de 460 llengües a partir de descripcions publicades. Cada segment es caracteritza per una descripció fonètica i per un conjunt de trets distintius.

Referències

MADDIESON, I. (1984) Patterns of Sounds. Cambridge: Cambridge University Press.

MADDIESON, I. (1986) «The Size and Structure of Phonological Inventories: Analysis of UPSID» in OHALA, J.J.- JAEGER, J.J. (Eds.) Experimental Phonology. New York: Academic Press. pp. 105-124.

MADDIESON, I. (1991) «Investigating linguistic universals», UCLA Working Papers in Phonetics 78 : 26-37

MADDIESON, I. (1991) «Testing the universality of phonological generalizations with a phonetically specified segment database: results and limitations» UCLA Working Papers in Phonetics 78 : 11-25

MADDIESON, I.- PRECODA, K. (1990) «Updating UPSID», UCLA Working Papers in Phonetics 74: 104-111

3. Les bases de dades per a la descripció fonètica de la llengua

3.1. Objectius i continguts lingüístics

Descripció fonètica dels elements segmentals i suprasegmentals de la llengua. Contenen segments aïllats, combinacions de segments, contrastos fonètics i fonològics entre segments, síl.labes, paraules aïllades, paraules en frase marc, frases, contrastos prosòdics en frases, textos, diàlegs, monòlegs espontanis o semi-dirigits.

3.2. Principals projectes actuals

3.2.1. Corpus per a la descripció fonètica comparada

Dissenyats per a portar a terme comparacions fonètiques entre llengües utilitzant materials equivalents.

3.2.1.1. IRIS - Immigrant Voices in Sweden, Phonetic Models

Mostres de 100 llengües i variants obtingudes en gravacions d’estudi. Materials classificats segons la llengua, el parlant i el tipus de contrast fonètic exemplificat. Conté diàlegs, monòleg lliure, monòleg dirigit, text llegit ('La tramuntana i el sol'), frases aïllades llegides a diferents velocitats d’elocució, parells mínims i síl.labes aïllades que exemplifiquen contrastos fonètics.

Referències

ENGSTRAND, O.- NORDSTRAND, L. (1985) «A digital data base for cross-language phonetic research», RUUL, Reports from the Uppsala University Department of Linguistics 12: 55-63 ENGSTRAND, O. (1987) «The IRIS speech data base - a status report» in ENGSTRAND, O. (Ed) Papers from the Swedish Phonetics Conference Held in Uppsala October 17-18, 1986 ( RUUL, Reports from the Uppsala University Department of Linguistics, 17) : 121-126

3.2.2. Corpus per a la descripció fonètica d’una llengua i per a aplicacions tecnològiques

Dissenyats per a cobrir ambdós objectius.

3.2.2.1. ALBAYZIN (Castellà)

Conjunt de 3 corpus per al desenvolupament de sistemes de reconeixement i processament de la parla i per a la descripció fonètica de la llengua. Enregistrament d’estudi amb 300 locutors seleccionats en funció de l’edat, el sexe, el nivell d’estudis i la procedència geogràfica.

Corpus fonètic: 200 frases fonèticament equilibrades extretes d’entrevistes tenint en compte diverses variables fonètiques. 500 frases fonèticament controlades seleccionades de textos literaris actuals.

Corpus d’aplicació: 3900 frases corresponents a una tasca de consulta d’una base de dades geogràfica.

Corpus de parla en ambient advers: recollit de manera que es reflecteixi el efecte Lombard (pertorbació en la parla produïda pel soroll ambient).

Referències

CASACUBERTA, F. (1991) «Albayzin Project: The Task Dependent Speech Data Base», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).

CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J. M.- RUBIO, A. (1991) «Development of Spanish Corpora for Speech Research (Albayzin)», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).

CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J. M.- RUBIO, A. (1992) «Desarrollo de corpus para investigación en tecnologías del habla ( Albayzin )», Procesamiento del Lenguaje Natural, Boletín 12: 35-42

LLISTERRI, J.- POCH, D. (1991) «Phonetic criteria for the development of a speech database in Spanish ( the Albayzin project )», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).

MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C. (1993) «ALBAYZIN Speech Database: Design of the Phonetic Corpus» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 175-178

3.2.2.2. BDSONS - Base de données des sons du français

Dissenyada per a la descripció fonètica del francès i per a l’avaluació de sistemes de reconeixement de la parla.

Corpus fonètic: 600 grups CVCV, 200 grups consonàntics, 532 parells i triplets per a un test de rimes, 50 frases fonèticament equilibrades, 44 frases amb nasals i 192 frases que inclouen totes les vocals i consonants del francès.

Corpus orientat a l’avaluació de sistemes de reconeixement: combinacions CV, dígits aïllats i en llista, números de telèfon, lletres aïllades, noms propis pronunciats lletra per lletra i llegits, textos.

Corpus segmentat i etiquetat, amb transcripció fonètica i ortogràfica. Obtingut en enregistraments d’estudi de 32 locutors.

Referències

BD. SONS - Base de données des sons du français ( CD-ROM). Paris: Greco, Mai 1987 ( 7 CD-ROMs)

CARRÉ, R.- DESCOUT, J.- MARIANI, J.- ESKÉNAZI, M.- ROSSI, M. (1984) «The French language database. Defining, planning and recording a large database», IEEE International Conference on Acoustics, Speech and Signal Processing, San Diego. Vol 3. pp. 42-10.1 - 42.10-4.

3.2.2.3. Phondat (Alemany)

Dissenyada per a l’entrenament i avaluació de sistemes de reconeixement de parla contínua, Conté frases curtes aïllades i dos textos llegits, Basada en enregistraments d’estudi de 100 locutors masculins i 100 locutors femenins amb una bona cobertura geogràfica.

Referències

KOHLER, K. (1991) «Phonetic data bases for German» in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. 5 vols. Aix-en-Provence: Université de Provence, Service des Publications. Vol. 2 pp. 466-469

"PHONDAT- Speech Data Base for German", NESCA, The ESCA Newsletter 8 (1992): 11

4. Les bases de dades per a aplicacions a la tecnologia de la veu

4.1. Objectius i continguts

Entrenament de sistemes de reconeixement de parla; avaluació de sistemes de reconeixement de parla; disseny i entrenament de sistemes de comunicació oral home-màquina; obtenció de dades per a la síntesi de la parla. Els continguts depenen de l’aplicació per a la qual s’hagin dissenyat.

4.2. Paradigmes de recollida de dades

El paradigma del Wizard of Oz es un mètode utilitzat en la recollida de dades per al disseny de sistemes que impliquen diàleg entre l’home i la màquina. El locutor porta a terme la tasca per a la qual es dissenyarà el sistema creient que interacciona amb un sistema real, però el sistema no és real, sinó que existeix un 'operador amagat' que proporciona una resposta tal i com ho faria un sistema automàtic. Amb això s’aconsegueix informació sobre tots els nivells lingüístics: fonètic, fonològic, lèxic, sintàctic, semàntic, discursiu; s’aconsegueix també informació sobre els fenòmens propis de la llengua oral: dubtes, errors... i sobre les estratègies de diàleg.

Referències

BLY, B.- PRICE, P.- TEPPER, S.- JACKSON, E.- ABRASH, V. (1990) «Designing the Human Machine Interface in the ATIS domain», Proceedings of the Third DARPA Workshop on Speech and Natural Language.

PAO, C.- WILPON, J. (1992) «Spontaneous speech collection for the ATIS Domain with an Aural User Feedback Paradigm», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

ZUE, V. (1992) «Data Collection and Performance Evaluation for Spoken Language Systems», ELSNET/ESCA/SALT Workshop on Integrating Speech and Natural Language. Dublin, Ireland, 15-17 July 1992.

ZUE, V.- GLASS, J.- GOODINE, D.- HIRSCHMAN, L.- LEUNG, H.- PHILLIPS, M.- POLIFRONI, J.- SENEFF, S. (1991) «The MIT ATIS system: Preliminary development, spontaneous speech data collection and performance evaluation» in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 537-540

4.3. Principals projectes actuals

4.3.1. Corpus per a aplicacions tecnològiques generals

4.3.1.1. Corpus unilingües

4.3.1.1.1. BREF - A Database of Read Text in French
Desenvolupament i avaluació de sistemes de reconeixement de parla contínua i de sistemes de dictat. 120 locutors, cadascun dels quals llegeix entre 5000 i 10000 paraules. 11000 textos seleccionats de Le Monde amb frases de diferent llargada. Transcripció fonètica alineada amb el senyal acústic.

Referències

GAUVAIN, J.-L.- LAMEL, L. F.- ESKÉNAZI, M. (1990) «Design Considerations and Text Selection for BREF, a large French read-speech corpus», Proceedings of the International Conference on Spoken Language Processing.

LAMEL, L. F.- GAUVAIN, J.-L.-ESKENAZI, M. (1991) «BREF, a Large Vocabulary Spoken Corpus for French», in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 505-508

4.3.1.1.2. RM1, RM2, - DARPA Resource Management Continuous Speech Corpus
Desenvolupament de sistemes de reconeixement de parla contínua. 25000 frases llegides extretes d’un model lingüístic d’una tasca d’organització de recursos navals. 160 parlants. Senyal acústic i transcripció ortogràfica de les frases en 5 CD-ROMs.

Referències

PRICE, P.- FISHER, W. M.- BASTION, J.- PALLET, D. S. (1988) «The DARPA 1000-word Resource Management Database for Continuous Speech Recognition», Proceedings ICASSP, 1988. paper S.13.21 pp. 651-654.
4.3.1.1.3. TIMIT - DARPA Acoustic Phonetic Continuous Speech Corpus
Desenvolupament de sistemes de reconeixement de parla. 2342 frases: 2 frases de 'calibració dialectal', 1890 frases naturals. 630 parlants classificats en vuit zones dialectals. Senyal acústic amb transcripció fonética alineada en CD-ROM.

Referències

GAROFOLO, J. S. - PALLET, D. S. (1989) «Use of CD-Rom for speech database storage and exchange» in TUBACH, J.P.- MARIANI, J.J. (Eds.) Eurospeech 89. European Conference on Speech Communication and Technology. Paris- September 1989. Edinburgh: CEP Consultants Ltd. pp. 309-312

FISHER, W. M.- DODDINGTON, G. R.- GOUDIE-MARSHALL, K. M. (1986) «The DARPA Speech Recognition Research Database: Specifications and Status», Proceedings of the DARPA Speech Recognition Workshop, 1986.

LAMEL, L. F.- KASSEL, R. H.- SENEFF, S. (1986) «Speech database development: Design and analysis of the acoustic-phonetic corpus», Proceedings of the DARPA Speech Recognition Workshop, 1986.

ZUE, V.- SENEFF, S.- GLASS, J.. (1989) «Speech database development: the TIMIT and BEYOND» in Proceedings of ESCA Workshop Speech Input / Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 2.1.1.-2.1.5

ZUE, V.- SENEFF, S.- GLASS, J. (1990) «Speech database development at MIT: TIMIT and beyond», Speech Communication 9,4: 351-356

LEUNG, H. C.- ZUE, V. (1984) «A procedure for automatic alignment of phonetic transcriptions with continuous speech», Proceedings ICASSP 84. pp. 2.7.1-2.7.4

ZUE, V.- SENEFF, S. (1988) «Transcription and alignment of the TIMIT database», Proceedings of the Second Meeting on Advanced Man-Machine Interface through Spoken Language.

4.3.1.1.4. WSJ-CSR - Wall Street Journal Continuous Speech Recognition Corpus
Disseny i avaluació de sistemes de reconeixement de parla contínua, 400 textos seleccionats del Wall Street Journal amb diferent nombre de frases i diferent tamany de vocabulari: parla espontània; dictat d’un article similar als del WSJ. 176 locutors.

Referències

PAUL, D. B.- BAKER, J. M. (1992) «The design for the Wall Street Journal - based CRS Corpus», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

PHILLIPS, J.- GLASS, J.- POLIFRONI, J.- ZUE, V. W. (1992) «Collection and analyses of WSJ-CRS Data at MIT », Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

BERNSTEIN, J.- DANIELSON, D. (1992) «Spontaneous speech collection for the CSR Corpus», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

4.3.1.2. Corpus multilingües

4.3.1.2.1. EUROM.1
Avaluació multilingüe de sistemes de reconeixement de parla. Llengües: alemany, anglès, danès, francès, italià. holandès, noruec, suec ( castellà, grec i portuguès en preparació).

Conté logatoms CV(C) amb les consonants inicials i finals en context /i,a,u/ i les vocals de cada llengua, 100 números, els logatoms en 5 frases marc diferents, 40 textos de 5 frases cadascun i 50 frases per a augmentar la cobertura fonètica. 74 parlants que llegeixen diferents parts del corpus.

Es presenta el senyal sonor - complementat amb el senyal laringogràfic en 4 parlants per llengua -, la transcripció ortogràfica i la transcripció fonètica en SAM-PA juntament amb una segmentació semi-automàtica. La distribució es realitza en CD-ROM.

Referències

SAM (1992) Guide to EUROM.1 Speech Database. Doc no. SAM-NPL-102, Final version 21 April 1992.

SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992

SAM (1992) User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardization. Ref., SAM-UCL-G007.

4.3.2. Corpus per a aplicacions tecnològiques específiques

4.3.2.1. ATIS - Air Traffic Information Systems Corpora

Desenvolupament d’un sistema de reserva de vols basat en la interacció en llenguatge natural. Dades obtingudes amb el protocol del Wizard of Oz simulant la interacció real amb el sistema.

Referències

PAO, C.- WILPON, J. (1992) «Spontaneous speech collection for the ATIS Domain with an Aural User Feedback Paradigm», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

WARD, W. (1991) «Evaluation of the CMU ATIS system», Proceedings of the Fourth DARPA Workshop on Speech and Natural Language.

POLIFRONI, J.- SENEFF, S.- ZUE, V. W.- HIRSCHMAN, L. (1990) «ATIS Data Collection at MIT», DARPA SLS Note 8, Spoken Language Systems Group, MIT Laboratory for Computer Science.

BLY, B.- PRICE, P.- TEPPER, S.- JACKSON, E.- ABRASH, V. (1990) «Designing the Human Machine Interface in the ATIS domain», Proceedings of the Third DARPA Workshop on Speech and Natural Language.

ZUE, V. et al. (1991) «The MIT ATIS system: Preliminary development, spontaneous speech data collection and performance evaluation» in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 537-540

HEMPHILL, C. T.- GODFREY, J.J.- DODDINGTON, G. R. (1990) «The ATIS Spoken Language Systems Pilot Corpus», Proceedings of the DARPA Speech and Natural Language Workshop, June 1990.

4.3.2.2. VOYAGER

Desenvolupament d’un sistema de comprensió del llenguatge natural. La base de dades conté transcripcions de diàlegs simulats de 20 minuts entre els locutors i el sistema, llegits posteriorment per 90 locutors. s’obtenen així 4361 frases.

Referències

ZUE, V.- SENEFF, S.- GLASS, J.. (1989) «Speech database development: the TIMIT and beyond» in Proceedings of ESCA Workshop Speech Input / Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 2.1.1.-2.1.5

ZUE, V.- SENEFF, S.- GLASS, J. (1990) "«Speech database development at MIT: TIMIT and beyond», Speech Communication 9,4: 351-356

5. Els corpus de llengua oral

5.1. Principals iniciatives

5.1.1. CSAE- Santa Barbara Corpus of Spoken American English

Projecte de recollida de 200.000 paraules, Basat en converses. Presentació de la transcripció i del senyal acústic.

Referències

CHAFE, W. L.- DU BOIS, J. W.- THOMPSON, S.A. (1991) «Towards a new corpus of spoken American English», in AIJMER, K.- ALTENBERG, B. (Eds.) English Corpus Linguistics. Studies in Honour of Jan Svartvik. London: Longman. pp. 64-82

5.1.2. LLC - London-Lund Corpus of Spoken English

500.000 paraules. Comprèn la part oral del Survey of English Usage Corpus, partint d’enregistraments realitzats entre 1953 i 1987. Presenta la transcripció ortogràfica i una transcripció prosòdica.

Referències

GREENBAUM, S.- SVARTVIK, J. (1990) «The London-Lund Corpus of Spoken English», in SVARTVIK, J. (Ed) (1990) The London-Lund Corpus of Spoken English: Description and Research. Lund: Lund University Press. pp. 11-63

SVARTVIK, J.- EEG-OLOFSSON, M.- FORSHEDEN, O.- ORESTRÖM, B.- THAVENIUS, C. (1982) Survey of Spoken English. Report on Research 1975-1981. Lund: Lund University Press.

SVARTVIK, J.- QUIRK, R. (Eds.) (1980) A Corpus of English Conversation. Lund: Lund University Press.

5.1.3. SEC - Lancaster/IBM Spoken English Corpus

52000 paraules. Material gravat dels mitjans de comunicació. Presenta la transcripció fonètica i ortogràfica, anotació prosòdica i anàlisi lingüística.

Referències

KNOWLES, G.- LAWRENCE, L. (1987) «Automatic intonation assignment» in GARSIDE, R.- LEECH, G.- SAMPSON, G. (Eds.) (1987) The Computational Analysis of English: A Corpus-based Approach. London: Longman. pp. 139-148

5.1.4. Corpus oral de referencia de la lengua española contemporánea

1100000 paraules. Recull de gran varietat estilística. Presenta la transcripció ortogràfica codificada segons les normes de la TEI.

Referències

MARCOS MARÍN, F. (1991) «Corpus oral de referencia de la lengua española contemporánea» in MARCOS MARÍN, F. (1991) Archivos Digitales. Sociedad Estatal del V Centenario. Area de Industrias de la Lengua. 3.07.1991. p. 1-25

Corpus i bases de dades orals actuals - Metodologia de recollida de corpus orals (1993-1994)
Joaquim Llisterri, Universitat Autònoma de Barcelona
https://joaquimllisterri.cat/language_resources/corpus_93/BD_actuals_93.html
La pàgina va ser modificada per darrera vegada el 30/06/94

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.