Zientzia eta Teknologiaren Corpusa proiektuak erakutsi zuen zein nekeza den corpus bat lortzeko testuak biltzea, eta nola nazioarteko joera gero eta gehiago testu horiek Internetetik lortzea bilakatu den. Estrategia horri jarraituz CorpEus garatu zen, weba euskarazko corpus erraldoi bat bailitzan kontsultatzeko aukera ematen duen zerbitzua. Hizkuntza teknologietan corpusen erabilera gero eta hedatuago dago, eta beraz corpus egokiak denbora epe laburretan lortzea beharrezkoa da.
Co3-ren helburu nagusia web-etik abiatuta corpus konparagarriak lortzeko tresna bat garatzea da. Hori helburu orokorra bada ere, tarteko helburu zehatzagoak ere baditu:
Baliabide urriko hizkuntzetako corpusak lortzen saiatzen diren tresnak ahalik eta corpus handienak lortzera bideratuta daude, ez daude corpus espezializatuak lortzeko diseinatuta. Bestalde, corpus espezifikoak lortzeko egin diren saiakera bakanetan, Interneten presentzia handia duten hizkuntzak erabili dira, hizkuntza txikiek tamaina egokiko corpusak lortzeko dituzten arazoetan murgildu gabe.
Aurretik aipatu bezala, Co3 corpusak eraikitzen saiatzen da Internet iturri bezala hartuta. Horretarako Interneten dokumentuak biltzen dira, eta teknika ezberdinak aplikatuz dokumentu hauen egokitasuna aztertzen da, harik eta tamaina egokia duen corpusa lortu arte.
Prozesu hau hizkuntza ezberdina duten corpusak lortzeko erabiliz gero, beti ere gai berdinaren ingurukoak, corpus konparagarriak lor daitezke. Honen ildotik, AzerHitz proiektuak corpusen konparagarritasun maila neurtzeko tekniken inguruan aurrera daraman ikerketa baliagarria izan daiteke.
Copyright © 2007 Elhuyar Fundazioa | Lege-oharra | Web-mapa | Erabiltzaile-kopurua: 856789
Diseinua: Blanco