El Corpus de Ciencia y Tecnología mostró el alto coste que supone reunir textos para crear un corpus, y cómo la tendencia internacional es cada vez mas buscar esos textos en internet. Siguiendo esa estrategia se desarrolló CorpEus, un servicio que permite consultar la web como si se tratara de un gigantesco corpus en Euskara. El uso de corpus en el campo de las tecnologías lingüísticas está cada vez mas extendido, y por tanto, es necesario obtener corpus adecuados en cortos espacios de tiempo.
El objetivo principal de Co3 es desarrollar una herramienta que obtenga corpus comparables utilizando como fuente Internet. Si bien este el el objetivo general, también tiene otros objetivos intermedios definidos:
Las herramientas existentes destinadas a lograr corpus en idiomas con escasos recursos lingüísticos tratan de lograr corpus del mayor tamaño posible, no están diseñadas para obtener corpus especializados. Por otro lado, en los escasos intentos que se han realizado para obtener corpus especializados se han utilizado lenguas con una gran presencia en Internet, sin afrontar por tanto los problemas que tienen los idiomas minoritarios a la hora de obtener corpus de tamaño adecuado.
Como ya hemos mencionado, Co3 intenta crear corpus tomando como fuente Internet. Con este fin se recogen documentos en la red, y aplicando diferentes técnicas se analiza la idoneidad de esos documentos, hasta lograr un corpus de tamaño adecuado.
Si aplicamos este proceso para obtener corpus en diferentes idiomas, siempre pertenecientes al mismo área del conocimiento, podemos lograr corpus comparables. En esta línea, la investigación realizada dentro del proyecto Azerhitz en torno a las técnicas para medir la similitud entre corpus puede ser de gran utilidad.
Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789
Diseinua: Blanco