Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Servicios Lingüísticos 

Volver al inicio de la página

Unidad de I+D

Herramientas para corpus

Objetivos y descripción general

Con el fin de desarrollar una herramienta para ayudar a construir el Corpus de Ciencia y Tecnología, y otros proyectos de corpus que en el futuro puedan impulsar Elhuyar, la Fundación Elhuyar puso en marcha el proyecto Corpusgile. Los objetivos específicos del proyecto son los siguientes:

  • Ofrecer metodología y tecnología para organizar automáticamente la elaboración de corpus.
  • Que los equipos que vayan a elaborar corpus utilicen el mismo modelo y metodología de trabajo.
  • Ofrecer una metodología consensuada y contrastada para elaborar el corpus general de referencia, principal objetivo del sector de cara al futuro.
  • Que la elaboración de corpus se haga en función de los estándares internacionales actuales.

Los motivos para la elaboración de dicha herramienta son los siguientes:

  • Hay una gran necesidad de corpus en el campo de las tecnologías lingüísticas, y es muy importante que los que se elaboren sean reutilizables.
  • La elaboración de corpus es un proceso muy complejo, ya que exige la integración de muchos recursos y herramientas; por tanto, es imprescindible el control de los pasos del proceso y sobre el flujo de información y documentos entre aquellos.
  • La elaboración de corpus exige invertir grandes cantidades de dinero, por lo que ofrecer procedimientos para minimizar costos es una idea sumamente interesante.
  • Las escasas herramientas de elaboración de corpus disponibles en el mercado no integran los recursos y herramientas necesarios para el procesamiento automático del euskera, y no son adecuadas para elaborar corpus de textos en euskera.

Corpusgile está formado por diversos módulos:

  • Módulo de recopilación de textos: la función de este módulo es diseñar e implementar un sistema para recopilar y almacenar los textos a incluir en el corpus.
  • Módulo de etiquetado de la estructura: En este módulo, se efectúa la conversión del formato original de la muestra del texto, procedente de la salida del módulo de búsqueda, al formato del modelo elegido para el etiquetado de la estructura. A continuación, se enriquece dicho etiquetado de la estructura con herramientas automáticas o semiautomáticas (muestreo, errores tipográficos, estandarización, etiquetas de significado...).

Difusión

  • N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2006. "Structure, Annotation and Tools in the Basque ZT Corpus". International Conference on Language Resources and Evaluations (LREC 2006). Génova.
Volver al inicio de la página

Servicios

Volver al inicio de la página
Munduko ugaztunen izendegia
9,50€Comprar
Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa
Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa
42,75€Comprar
Volver al inicio de la página Volver al inicio de la página

Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Volver al inicio de la página