Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Hizkuntza Zerbitzuak 

Itzuli orriaren hasierara

I+G+B unitatea

Corpus-tresnak

Helburuak eta azalpen orokorra

PaCo2 proiektuaren helburu orokorra euskara barne duten corpus paraleloak Internetetik erauzteko metodologia eta sistema bat garatzea da. Internet da gaur egun internet da munduko informazio iturririk handiena, eta beraz, iturri gisa hori erabiltzea proposatzen da proiektu honetan. Helburu zehatzak, berriz, hauek dira:

  • Euskara eta beste hizkuntza batzuk barne hartzen dituzten corpus paralelo orokorrak internetetik automatikoki erauziko dituen programa bat garatzea.
  • Gai jakin bateko corpus paraleloak biltzeko teknikak aztertu
  • honen bidez, euskararen corpus eleaniztunen beharra asetzen lagundu
  • Proiektu hau garatzeko behar diren teknologietan sakondu eta hobetzen saiatzea, (elkarren itzulpen diren testuen detekzioa, hizkuntza eta gaia ezagutzeko teknikak, testu errepikatuak detektatzeko metodoak,...)

Azken urteetan corpus eleaniztunak gero eta beharrezkoagoak bihurtu dira. Hizkuntz Teknologiek aurrera egin ahala, hauen gero eta behar handiagoa sumatzen da. Corpus eleaniztunak ezinbestekoak dira, adibidez, itzulpen automatikoko azken generazioko sistemak (adibideetan oinarritutakoak eta estatistikoak) entrenatzeko. Horrez gain, gero eta gehiago dira corpus eleaniztunetatik maila ezberdinetako informazioa erauzteko gai diren sistemak (Elhuyar Fundazioan azken urteetan garatutako ElexBi, DokuSare eta AzerHitz, adibidez), baina sistema hauei behar bezalako probetxua ateratzeko corpus eleaniztunak behar dira.

Corpus eleaniztunetan bi motatakoak bereiz daitezke: corpus paraleloak eta corpus konparagarriak. Corpus paraleloetan hizkuntza bateko dokumentu bakoitzak bere itzulpena du beste hizkuntzetan. Corpus konparagarrietan, aldiz, ez da dokumentu-mailako parekatze hori ematen, baina hizkuntza guztietako testu-bildumak antzekoak direla esan daiteke, dela gai aldetik, dela genero aldetik, dela dena delakoagatik.

Corpus paraleloak dira egokienak beraietatik informazioa erauzteko edo sistemak entrenatzeko, duten parekatze-mailagatik errazagoak baitira tratatzeko. Baina mota honetako corpusak ez dira behar bezain ugariak. Izan ere, hizkuntza bikote askok ez dute horrelako baliabiderik, eta horiek sortzea oso lan nekeza izaten da, bai denbora aldetik bai eta kostu ekonomiko aldetik ere.

Baliabide falta horri aurre egiteko, azken urteetan corpus konparagarriak erabiltzen hasi dira. Internetek corpus hauek biltzeko erraztasunak eskaintzen ditu, nahiz eta lana erabat hutsala ez izan. Elhuyarrek ere jorratu du ikerkuntza lerro hau, AzerHitz eta Co3 proiektuetan. Tamalez, corpus hauekin lortzen diren emaitzak oraindik ere ez dira alderagarriak paraleloekin lortutakoekin, adibidez terminologia erauzketan. Itzulpen automatikorako sistema estatistikoak entrenatzeko ezinbesteko baliabidea dira gaur egun corpus paraleloak. CLIR arloan ere oso baliabide erabilia dira, itzulpen hautapena egiteko orduan, esaterako.

Arrazoi horiek direla eta, corpus paraleloak modu azkar eta ahal bada automatikoan eraikitzeko bideak ikertzea beharrezko ikusten dugu. Corpus paraleloak denbora eta kostu mugatu batekin sortzeko ahalmena izango bagenu, aurretik aipatutako baliabide urritasuna hein batean murriztuko genuke.

Itzuli orriaren hasierara

Zerbitzuak

Itzuli orriaren hasierara
Elhuyar Sinonimoen Kutxa. Sinonimo eta antonimoen hiztegia (3. edizioa)
18,50€Erosi
Energiaren hiztegi entziklopedikoa
Energiaren hiztegi entziklopedikoa
17,10€Erosi
Itzuli orriaren hasierara Itzuli orriaren hasierara
Ia denaren historia labur bat
Armix max mix
Elhuyar Zientzia eta Teknologia Hiztegi Entziklopedikoa
Itzulterm

Copyright © 2007 Elhuyar Fundazioa | Lege-oharra | Web-mapa | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Itzuli orriaren hasierara