CARRÉ, R. (1992) «Speech Databases» in AINSWORTH, W. (Ed) Advances in Speech, Hearing and Language Processing. Volume 2. London: Jai Press. pp. 199-216.
CASTAGNERI, G. (Ed) (1991) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ). Organized by CSELT in cooperation with CEC DGXIII, ESCA, ESPRIT PROJECT 2589 (SAM)
DOLMAZON, J. M. (1991) «Towards International Vocal Database Standards», in CASTAGNERI, G. (Ed) (1991) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28
GOLDSMITH, M.- FULLER, H. (1991) «Speech Database Construction», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).
JONES, K. - MARIANI, J. (Eds) (1992) Proceedings of the 1992 Workshop of the International Coordinating Committee on Speech Databasesand Speech I/O Systems Assessment. Monday, 12 October 1992. Banff Springs Hotel, Banff, Canada.
LAMEL, L. F.(1992) «Report on Speech Corpora Development in the U. S.», NESCA - The ESCA Newsletter 8: 7-10
PALLET, D. (1992) «Speech Corpora Produced on CD-ROM Media by The National Institute of Standards and Technology (NIST)», Integrating Speech and Natural Language. University College Dublin, 15-17 July 1992. pp. 173-193
Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989.
Il.lustració de sons i transcripcions de 25 llengües del món. Presentació de contrastos fonològics, realització fonètica i parla contínua.
Il.lustració de grups CV i VC (accentuats i no accentuats) inclosos en paraules en 8 llengües. Dos parlants masculins i dos parlants femenins per llengua.Referències
PICKERING, J.B.- ROSNER, B. S (1993) The Oxford Acoustic Phonetic Database on Compact Disk. Oxford: Oxford University Press (2 CD)
Mostra d’inventaris fonètics i fonològics de 690 llengües extrets de publicacions. Transcripció fonètica, inventari de cada llengua, informació prosòdica i informació sobre la distribució de fonemes.Referències
CROTHERS, J. (1978) «Typology and Universals of Vowel Systems» in J. H. GREENBERG-FERGUSON, C.A.- MORAVCSIK, E. A. (Eds.) Universals of Human Language . Volume 2: Phonology. Stanford: Stanford University Press. pp. 93-152.
Inventari fonètic i fonològic de 460 llengües a partir de descripcions publicades. Cada segment es caracteritza per una descripció fonètica i per un conjunt de trets distintius.Referències
MADDIESON, I. (1984) Patterns of Sounds. Cambridge: Cambridge University Press.MADDIESON, I. (1986) «The Size and Structure of Phonological Inventories: Analysis of UPSID» in OHALA, J.J.- JAEGER, J.J. (Eds.) Experimental Phonology. New York: Academic Press. pp. 105-124.
MADDIESON, I. (1991) «Investigating linguistic universals», UCLA Working Papers in Phonetics 78 : 26-37
MADDIESON, I. (1991) «Testing the universality of phonological generalizations with a phonetically specified segment database: results and limitations» UCLA Working Papers in Phonetics 78 : 11-25
MADDIESON, I.- PRECODA, K. (1990) «Updating UPSID», UCLA Working Papers in Phonetics 74: 104-111
Mostres de 100 llengües i variants obtingudes en gravacions d’estudi. Materials classificats segons la llengua, el parlant i el tipus de contrast fonètic exemplificat. Conté diàlegs, monòleg lliure, monòleg dirigit, text llegit ('La tramuntana i el sol'), frases aïllades llegides a diferents velocitats d’elocució, parells mínims i síl.labes aïllades que exemplifiquen contrastos fonètics.Referències
ENGSTRAND, O.- NORDSTRAND, L. (1985) «A digital data base for cross-language phonetic research», RUUL, Reports from the Uppsala University Department of Linguistics 12: 55-63 ENGSTRAND, O. (1987) «The IRIS speech data base - a status report» in ENGSTRAND, O. (Ed) Papers from the Swedish Phonetics Conference Held in Uppsala October 17-18, 1986 ( RUUL, Reports from the Uppsala University Department of Linguistics, 17) : 121-126
Conjunt de 3 corpus per al desenvolupament de sistemes de reconeixement i processament de la parla i per a la descripció fonètica de la llengua. Enregistrament d’estudi amb 300 locutors seleccionats en funció de l’edat, el sexe, el nivell d’estudis i la procedència geogràfica.Corpus fonètic: 200 frases fonèticament equilibrades extretes d’entrevistes tenint en compte diverses variables fonètiques. 500 frases fonèticament controlades seleccionades de textos literaris actuals.
Corpus d’aplicació: 3900 frases corresponents a una tasca de consulta d’una base de dades geogràfica.
Corpus de parla en ambient advers: recollit de manera que es reflecteixi el efecte Lombard (pertorbació en la parla produïda pel soroll ambient).
Referències
CASACUBERTA, F. (1991) «Albayzin Project: The Task Dependent Speech Data Base», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J. M.- RUBIO, A. (1991) «Development of Spanish Corpora for Speech Research (Albayzin)», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).
CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J. M.- RUBIO, A. (1992) «Desarrollo de corpus para investigación en tecnologías del habla ( Albayzin )», Procesamiento del Lenguaje Natural, Boletín 12: 35-42
LLISTERRI, J.- POCH, D. (1991) «Phonetic criteria for the development of a speech database in Spanish ( the Albayzin project )», in CASTAGNERI, G. (Ed) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ).
MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C. (1993) «ALBAYZIN Speech Database: Design of the Phonetic Corpus» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 175-178
Dissenyada per a la descripció fonètica del francès i per a l’avaluació de sistemes de reconeixement de la parla.Corpus fonètic: 600 grups CVCV, 200 grups consonàntics, 532 parells i triplets per a un test de rimes, 50 frases fonèticament equilibrades, 44 frases amb nasals i 192 frases que inclouen totes les vocals i consonants del francès.
Corpus orientat a l’avaluació de sistemes de reconeixement: combinacions CV, dígits aïllats i en llista, números de telèfon, lletres aïllades, noms propis pronunciats lletra per lletra i llegits, textos.
Corpus segmentat i etiquetat, amb transcripció fonètica i ortogràfica. Obtingut en enregistraments d’estudi de 32 locutors.
Referències
BD. SONS - Base de données des sons du français ( CD-ROM). Paris: Greco, Mai 1987 ( 7 CD-ROMs)CARRÉ, R.- DESCOUT, J.- MARIANI, J.- ESKÉNAZI, M.- ROSSI, M. (1984) «The French language database. Defining, planning and recording a large database», IEEE International Conference on Acoustics, Speech and Signal Processing, San Diego. Vol 3. pp. 42-10.1 - 42.10-4.
Dissenyada per a l’entrenament i avaluació de sistemes de reconeixement de parla contínua, Conté frases curtes aïllades i dos textos llegits, Basada en enregistraments d’estudi de 100 locutors masculins i 100 locutors femenins amb una bona cobertura geogràfica.Referències
KOHLER, K. (1991) «Phonetic data bases for German» in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. 5 vols. Aix-en-Provence: Université de Provence, Service des Publications. Vol. 2 pp. 466-469"PHONDAT- Speech Data Base for German", NESCA, The ESCA Newsletter 8 (1992): 11
PAO, C.- WILPON, J. (1992) «Spontaneous speech collection for the ATIS Domain with an Aural User Feedback Paradigm», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.
ZUE, V. (1992) «Data Collection and Performance Evaluation for Spoken Language Systems», ELSNET/ESCA/SALT Workshop on Integrating Speech and Natural Language. Dublin, Ireland, 15-17 July 1992.
ZUE, V.- GLASS, J.- GOODINE, D.- HIRSCHMAN, L.- LEUNG, H.- PHILLIPS, M.- POLIFRONI, J.- SENEFF, S. (1991) «The MIT ATIS system: Preliminary development, spontaneous speech data collection and performance evaluation» in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 537-540
Desenvolupament i avaluació de sistemes de reconeixement de parla contínua i de sistemes de dictat. 120 locutors, cadascun dels quals llegeix entre 5000 i 10000 paraules. 11000 textos seleccionats de Le Monde amb frases de diferent llargada. Transcripció fonètica alineada amb el senyal acústic.Referències
GAUVAIN, J.-L.- LAMEL, L. F.- ESKÉNAZI, M. (1990) «Design Considerations and Text Selection for BREF, a large French read-speech corpus», Proceedings of the International Conference on Spoken Language Processing.LAMEL, L. F.- GAUVAIN, J.-L.-ESKENAZI, M. (1991) «BREF, a Large Vocabulary Spoken Corpus for French», in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 505-508
Desenvolupament de sistemes de reconeixement de parla contínua. 25000 frases llegides extretes d’un model lingüístic d’una tasca d’organització de recursos navals. 160 parlants. Senyal acústic i transcripció ortogràfica de les frases en 5 CD-ROMs.Referències
PRICE, P.- FISHER, W. M.- BASTION, J.- PALLET, D. S. (1988) «The DARPA 1000-word Resource Management Database for Continuous Speech Recognition», Proceedings ICASSP, 1988. paper S.13.21 pp. 651-654.
Desenvolupament de sistemes de reconeixement de parla. 2342 frases: 2 frases de 'calibració dialectal', 1890 frases naturals. 630 parlants classificats en vuit zones dialectals. Senyal acústic amb transcripció fonética alineada en CD-ROM.Referències
GAROFOLO, J. S. - PALLET, D. S. (1989) «Use of CD-Rom for speech database storage and exchange» in TUBACH, J.P.- MARIANI, J.J. (Eds.) Eurospeech 89. European Conference on Speech Communication and Technology. Paris- September 1989. Edinburgh: CEP Consultants Ltd. pp. 309-312FISHER, W. M.- DODDINGTON, G. R.- GOUDIE-MARSHALL, K. M. (1986) «The DARPA Speech Recognition Research Database: Specifications and Status», Proceedings of the DARPA Speech Recognition Workshop, 1986.
LAMEL, L. F.- KASSEL, R. H.- SENEFF, S. (1986) «Speech database development: Design and analysis of the acoustic-phonetic corpus», Proceedings of the DARPA Speech Recognition Workshop, 1986.
ZUE, V.- SENEFF, S.- GLASS, J.. (1989) «Speech database development: the TIMIT and BEYOND» in Proceedings of ESCA Workshop Speech Input / Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 2.1.1.-2.1.5
ZUE, V.- SENEFF, S.- GLASS, J. (1990) «Speech database development at MIT: TIMIT and beyond», Speech Communication 9,4: 351-356
LEUNG, H. C.- ZUE, V. (1984) «A procedure for automatic alignment of phonetic transcriptions with continuous speech», Proceedings ICASSP 84. pp. 2.7.1-2.7.4
ZUE, V.- SENEFF, S. (1988) «Transcription and alignment of the TIMIT database», Proceedings of the Second Meeting on Advanced Man-Machine Interface through Spoken Language.
Disseny i avaluació de sistemes de reconeixement de parla contínua, 400 textos seleccionats del Wall Street Journal amb diferent nombre de frases i diferent tamany de vocabulari: parla espontània; dictat d’un article similar als del WSJ. 176 locutors.Referències
PAUL, D. B.- BAKER, J. M. (1992) «The design for the Wall Street Journal - based CRS Corpus», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.PHILLIPS, J.- GLASS, J.- POLIFRONI, J.- ZUE, V. W. (1992) «Collection and analyses of WSJ-CRS Data at MIT », Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.
BERNSTEIN, J.- DANIELSON, D. (1992) «Spontaneous speech collection for the CSR Corpus», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.
Avaluació multilingüe de sistemes de reconeixement de parla. Llengües: alemany, anglès, danès, francès, italià. holandès, noruec, suec ( castellà, grec i portuguès en preparació).Conté logatoms CV(C) amb les consonants inicials i finals en context /i,a,u/ i les vocals de cada llengua, 100 números, els logatoms en 5 frases marc diferents, 40 textos de 5 frases cadascun i 50 frases per a augmentar la cobertura fonètica. 74 parlants que llegeixen diferents parts del corpus.
Es presenta el senyal sonor - complementat amb el senyal laringogràfic en 4 parlants per llengua -, la transcripció ortogràfica i la transcripció fonètica en SAM-PA juntament amb una segmentació semi-automàtica. La distribució es realitza en CD-ROM.
Referències
SAM (1992) Guide to EUROM.1 Speech Database. Doc no. SAM-NPL-102, Final version 21 April 1992.SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992
SAM (1992) User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardization. Ref., SAM-UCL-G007.
Desenvolupament d’un sistema de reserva de vols basat en la interacció en llenguatge natural. Dades obtingudes amb el protocol del Wizard of Oz simulant la interacció real amb el sistema.Referències
PAO, C.- WILPON, J. (1992) «Spontaneous speech collection for the ATIS Domain with an Aural User Feedback Paradigm», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.WARD, W. (1991) «Evaluation of the CMU ATIS system», Proceedings of the Fourth DARPA Workshop on Speech and Natural Language.
POLIFRONI, J.- SENEFF, S.- ZUE, V. W.- HIRSCHMAN, L. (1990) «ATIS Data Collection at MIT», DARPA SLS Note 8, Spoken Language Systems Group, MIT Laboratory for Computer Science.
BLY, B.- PRICE, P.- TEPPER, S.- JACKSON, E.- ABRASH, V. (1990) «Designing the Human Machine Interface in the ATIS domain», Proceedings of the Third DARPA Workshop on Speech and Natural Language.
ZUE, V. et al. (1991) «The MIT ATIS system: Preliminary development, spontaneous speech data collection and performance evaluation» in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 537-540
HEMPHILL, C. T.- GODFREY, J.J.- DODDINGTON, G. R. (1990) «The ATIS Spoken Language Systems Pilot Corpus», Proceedings of the DARPA Speech and Natural Language Workshop, June 1990.
Desenvolupament d’un sistema de comprensió del llenguatge natural. La base de dades conté transcripcions de diàlegs simulats de 20 minuts entre els locutors i el sistema, llegits posteriorment per 90 locutors. s’obtenen així 4361 frases.Referències
ZUE, V.- SENEFF, S.- GLASS, J.. (1989) «Speech database development: the TIMIT and beyond» in Proceedings of ESCA Workshop Speech Input / Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 2.1.1.-2.1.5ZUE, V.- SENEFF, S.- GLASS, J. (1990) "«Speech database development at MIT: TIMIT and beyond», Speech Communication 9,4: 351-356
Projecte de recollida de 200.000 paraules, Basat en converses. Presentació de la transcripció i del senyal acústic.Referències
CHAFE, W. L.- DU BOIS, J. W.- THOMPSON, S.A. (1991) «Towards a new corpus of spoken American English», in AIJMER, K.- ALTENBERG, B. (Eds.) English Corpus Linguistics. Studies in Honour of Jan Svartvik. London: Longman. pp. 64-82
500.000 paraules. Comprèn la part oral del Survey of English Usage Corpus, partint d’enregistraments realitzats entre 1953 i 1987. Presenta la transcripció ortogràfica i una transcripció prosòdica.Referències
GREENBAUM, S.- SVARTVIK, J. (1990) «The London-Lund Corpus of Spoken English», in SVARTVIK, J. (Ed) (1990) The London-Lund Corpus of Spoken English: Description and Research. Lund: Lund University Press. pp. 11-63SVARTVIK, J.- EEG-OLOFSSON, M.- FORSHEDEN, O.- ORESTRÖM, B.- THAVENIUS, C. (1982) Survey of Spoken English. Report on Research 1975-1981. Lund: Lund University Press.
SVARTVIK, J.- QUIRK, R. (Eds.) (1980) A Corpus of English Conversation. Lund: Lund University Press.
52000 paraules. Material gravat dels mitjans de comunicació. Presenta la transcripció fonètica i ortogràfica, anotació prosòdica i anàlisi lingüística.Referències
KNOWLES, G.- LAWRENCE, L. (1987) «Automatic intonation assignment» in GARSIDE, R.- LEECH, G.- SAMPSON, G. (Eds.) (1987) The Computational Analysis of English: A Corpus-based Approach. London: Longman. pp. 139-148
1100000 paraules. Recull de gran varietat estilística. Presenta la transcripció ortogràfica codificada segons les normes de la TEI.Referències
MARCOS MARÍN, F. (1991) «Corpus oral de referencia de la lengua española contemporánea» in MARCOS MARÍN, F. (1991) Archivos Digitales. Sociedad Estatal del V Centenario. Area de Industrias de la Lengua. 3.07.1991. p. 1-25
Corpus i bases de dades orals
actuals - Metodologia de recollida de corpus orals (1993-1994)
Joaquim Llisterri, Universitat Autònoma
de Barcelona
https://joaquimllisterri.cat/language_resources/corpus_93/BD_actuals_93.html
La pàgina va ser modificada per darrera vegada el 30/06/94
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.