Objetivos y descripción general
Con el fin de desarrollar una herramienta para ayudar a construir el Corpus de Ciencia y Tecnología, y otros proyectos de corpus que en el futuro puedan impulsar Elhuyar, la Fundación Elhuyar puso en marcha el proyecto Corpusgile. Los objetivos específicos del proyecto son los siguientes:
- Ofrecer metodología y tecnología para organizar automáticamente la elaboración de corpus.
- Que los equipos que vayan a elaborar corpus utilicen el mismo modelo y metodología de trabajo.
- Ofrecer una metodología consensuada y contrastada para elaborar el corpus general de referencia, principal objetivo del sector de cara al futuro.
- Que la elaboración de corpus se haga en función de los estándares internacionales actuales.
Los motivos para la elaboración de dicha herramienta son los siguientes:
- Hay una gran necesidad de corpus en el campo de las tecnologías lingüísticas, y es muy importante que los que se elaboren sean reutilizables.
- La elaboración de corpus es un proceso muy complejo, ya que exige la integración de muchos recursos y herramientas; por tanto, es imprescindible el control de los pasos del proceso y sobre el flujo de información y documentos entre aquellos.
- La elaboración de corpus exige invertir grandes cantidades de dinero, por lo que ofrecer procedimientos para minimizar costos es una idea sumamente interesante.
- Las escasas herramientas de elaboración de corpus disponibles en el mercado no integran los recursos y herramientas necesarios para el procesamiento automático del euskera, y no son adecuadas para elaborar corpus de textos en euskera.
Corpusgile está formado por diversos módulos:
- Módulo de recopilación de textos: la función de este módulo es diseñar e implementar un sistema para recopilar y almacenar los textos a incluir en el corpus.
- Módulo de etiquetado de la estructura: En este módulo, se efectúa la conversión del formato original de la muestra del texto, procedente de la salida del módulo de búsqueda, al formato del modelo elegido para el etiquetado de la estructura. A continuación, se enriquece dicho etiquetado de la estructura con herramientas automáticas o semiautomáticas (muestreo, errores tipográficos, estandarización, etiquetas de significado...).
Difusión
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2006. "Structure, Annotation and Tools in the Basque ZT Corpus". International Conference on Language Resources and Evaluations (LREC 2006). Génova.