PaCo2 proiektuaren helburu orokorra euskara barne duten corpus paraleloak Internetetik erauzteko metodologia eta sistema bat garatzea da. Internet da gaur egun internet da munduko informazio iturririk handiena, eta beraz, iturri gisa hori erabiltzea proposatzen da proiektu honetan. Helburu zehatzak, berriz, hauek dira:
Azken urteetan corpus eleaniztunak gero eta beharrezkoagoak bihurtu dira. Hizkuntz Teknologiek aurrera egin ahala, hauen gero eta behar handiagoa sumatzen da. Corpus eleaniztunak ezinbestekoak dira, adibidez, itzulpen automatikoko azken generazioko sistemak (adibideetan oinarritutakoak eta estatistikoak) entrenatzeko. Horrez gain, gero eta gehiago dira corpus eleaniztunetatik maila ezberdinetako informazioa erauzteko gai diren sistemak (Elhuyar Fundazioan azken urteetan garatutako ElexBi, DokuSare eta AzerHitz, adibidez), baina sistema hauei behar bezalako probetxua ateratzeko corpus eleaniztunak behar dira.
Corpus eleaniztunetan bi motatakoak bereiz daitezke: corpus paraleloak eta corpus konparagarriak. Corpus paraleloetan hizkuntza bateko dokumentu bakoitzak bere itzulpena du beste hizkuntzetan. Corpus konparagarrietan, aldiz, ez da dokumentu-mailako parekatze hori ematen, baina hizkuntza guztietako testu-bildumak antzekoak direla esan daiteke, dela gai aldetik, dela genero aldetik, dela dena delakoagatik.
Corpus paraleloak dira egokienak beraietatik informazioa erauzteko edo sistemak entrenatzeko, duten parekatze-mailagatik errazagoak baitira tratatzeko. Baina mota honetako corpusak ez dira behar bezain ugariak. Izan ere, hizkuntza bikote askok ez dute horrelako baliabiderik, eta horiek sortzea oso lan nekeza izaten da, bai denbora aldetik bai eta kostu ekonomiko aldetik ere.
Baliabide falta horri aurre egiteko, azken urteetan corpus konparagarriak erabiltzen hasi dira. Internetek corpus hauek biltzeko erraztasunak eskaintzen ditu, nahiz eta lana erabat hutsala ez izan. Elhuyarrek ere jorratu du ikerkuntza lerro hau, AzerHitz eta Co3 proiektuetan. Tamalez, corpus hauekin lortzen diren emaitzak oraindik ere ez dira alderagarriak paraleloekin lortutakoekin, adibidez terminologia erauzketan. Itzulpen automatikorako sistema estatistikoak entrenatzeko ezinbesteko baliabidea dira gaur egun corpus paraleloak. CLIR arloan ere oso baliabide erabilia dira, itzulpen hautapena egiteko orduan, esaterako.
Arrazoi horiek direla eta, corpus paraleloak modu azkar eta ahal bada automatikoan eraikitzeko bideak ikertzea beharrezko ikusten dugu. Corpus paraleloak denbora eta kostu mugatu batekin sortzeko ahalmena izango bagenu, aurretik aipatutako baliabide urritasuna hein batean murriztuko genuke.
Copyright © 2007 Elhuyar Fundazioa | Lege-oharra | Web-mapa | Erabiltzaile-kopurua: 856789
Diseinua: Blanco