Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Services linguistiques 

Retour au haut de la page

R+D

Extraction et Récupération d´Informations (IR-IE)

Dokusare (CLIR) 

Objectifs et description générale

Étudier et développer des techniques pour mettre en rapport des documents multilingues : classement sémantique de documents, similitude sémantique entre documents et groupement (clustering) de documents basé sur des organismes et des termes…

Nous avons développé un prototype pour évaluer ces techniques et analyser leur viabilité. Ces essais ont été réalisés sur le site web zientzia.net de la fondation Elhuyar.

Les techniques pour rapprocher des documents suivent toutes le même concept : similitude entre les documents ou document similarity.

Pour rapprocher des documents, nous recherchons des techniques pour mesurer le niveau de ressemblance entre eux. Néanmoins la ressemblance étant un vaste concept, les lignes de recherche sont très variées. Dans ce projet nous souhaitons approfondir la similitude sémantique multilingue. Nous travaillerons également sur d'autres techniques auxiliaires.

En mesurant le rapport existant entre des documents dans plusieurs langues, nous serions capables de regrouper des documents avec un contenu similaire. De cette manière de nouvelles voies s'offrent à nous avec le basque comme point de départ, pour accéder aux contenus multilingues d'Internet, pour rapprocher de manière semi-automatique des documents multilingues de contenus équivalents ou similaires, pour construire des corpus comparables, etc.

Modéliser la relation sémantique entre des documents est un problème intéressant dans les sciences cognitives (cognitive sciencie), au niveau théorique et pratique. Au niveau théorique parce que cela modélise un processus cognitif et, au niveau pratique, parce que les systèmes de recherche, les systèmes de navigation et les systèmes de visualisation de corpus, les filtres, les systèmes de classement et en général de nombreux outils de gestion de textes utilisent des mesures de similitudes. Par conséquent, le développement d'une technologie de qualité autour de la similitude sémantique est une étape basique pour garantir l'utilité du logiciel destiné à la gestion textuelle.

Diffusion
Retour au haut de la page

Services

Retour au haut de la page
Euskara-Errusiera / Errusiera-Euskara hiztegia
15,58€Acheter
Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa
Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa
42,75€Acheter
Retour au haut de la page Retour au haut de la page

Copyright © 2007 Elhuyar Fundazioa | Avis juridique | Plan du site | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Retour au haut de la page