Corpus

He estado involucrado en el desarrollo de dos corpus diferentes:

El corpus de habla espontánea C-ORAL-ROM. Este proyecto europeo grabó y etiquetó corpus comparables en cuatro lenguas romances: italiano, portugués, francés y español, desarrollados por la Universidad de Florencia, la Fundación Universidad de Lisboa, la Universidad de Aix-en-Provence y la Universidad Autónoma de Madrid.

El subcorpus español se compone de más de 300,000 palabras transcritas y anotadas prosódica y morfológicamente.

Las interacciones se grabaron siguiendo estrictos requisitos de espontaneidad, calidad del sonido y variedad de hablantes. Fueron tomadas en muy diversos contextos y siempre utilizando tecnología digital.

El UAM Spanish Treebank es un corpus de textos escritos compuesto por 1600 oraciones tomadas de periódicos digitales (El País y Compra Maestra). Las oraciones fueron analizadas sintácticamente siguiendo un formato inspirado en el del Penn-Treebank.