Dokumentu eleaniztunak (euskara barne) erlazionatzeko teknikak aztertu eta lantzea, horretarako hainbat teknika garatuz: dokumentuen sailkapen semantikoa, dokumentuen arteko antzekotasun semantikoa neurtzea, entitate edo terminoetan oinarritutako dokumentu multzokatzea (clustering)... Prototipo bat garatu da teknika hauek ebaluatzeko eta haien aplikazioaren bideragarritasuna aztertzeko.
Elhuyar Fundazioren Zientzia.net webgunean egin dira proba horiek.
Dokumentuen arteko erlazionatzeko teknikak kontzeptu baten barruan koka ditzakegu: dokumentuen antzekotasuna edo Document similarity.
Dokumentuak erlazionatzeko asmotan, haien arteko antzekotasuna neurtzeko teknikak ikertzen dira. Hala ere, hemen antzekotasuna oso kontzeptu zabala da, eta hori dela eta, esan bezala ikerketa-lerroak era askotakoak dira. Proiektu honetan, hizkuntza arteko antzekotasun semantikoan sakontzeko asmoa dugu, baina bestelako teknika lagungarriak ere landuko dira.
Hainbat hizkuntzatako dokumentuen arteko erlazioa neurtuz, antzeko edukia duten dokumentuak multzokatzeko aukera izango genuke. Horren bidez, aukera berriak zabaltzen zaizkigu euskara abiapuntu-hizkuntza izaki, Interneten hizkuntza askotako edukiak bilatzeko, dokumentu jakin batekin eduki bera edo antzekoa duten hainbat hizkuntzatako dokumentuak erdiautomatikoki lotzeko, corpus konparagarriak eratzeko, eta abarretarako. Dokumentuen arteko antzekotasun semantikoa modelatzea arazo interesgarria da ezagutza zientzietan (cognitive sciencie), bai teoria, bai praktika ikuspuntutik.
Teoria eremuan oinarrizko ezagutzaren prozesu bat tratatzen baitu, eta praktikan bilaketa sistemak, nabigazio sistemak, testu corpus bistaratzaileak, iragazpenak eta sailkapenak egiteko aplikazioak, eta orokorrean testu kudeaketarako tresna asko antzekotasun-neurriez baliatzen baitira. Hori dela eta, antzekotasun semantikoaren inguruan kalitatezko teknologia garatzea, hau da zehatza, automatiko eta eskalagarria diren tresnak ekoiztea, oinarrizko atala da testua kudeatzen duen softwarearen erabilgarritasuna areagotzeko.
Copyright © 2007 Elhuyar Fundazioa | Lege-oharra | Web-mapa | Erabiltzaile-kopurua: 856789
Diseinua: Blanco