Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Services linguistiques 

Retour au haut de la page

R+D

Outils de Corpus

Objectifs et description générale

Le projet Zientzia eta Teknologiaren Corpusa a démontré qu'il est très coûteux de réunir des textes pour créer un corpus, et qu'il est de plus en plus fréquent dans le monde de rechercher ces textes sur Internet. C'est selon cette stratégie qu'a été développé CorpEus, un service qui permet de consulter Internet comme s'il s'agissait d'un gigantesque corpus en basque. L'utilisation du corpus dans le domaine des technologies linguistiques est de plus en plus répandu et il est par conséquent nécessaire d'obtenir des corpus adaptés aux courts espaces de temps.

L'objectif principal de Co3 est de développer un outil pour obtenir des corpus comparables en utilisant Internet comme source. Même si cela est l'objectif général, il a d'autres objectifs intermédiaires définis :

  • La création de corpus spécialisés
  • La création de corpus en basque

Les outils existants destinés à obtenir des corpus en langues avec de rares ressources linguistiques tentent d'obtenir le plus grand corpus possible, mais ne sont pas conçu pour obtenir des corpus spécialisés. D'autre part, dans les rares tentatives faites pour obtenir des corpus spécialisés, nous avons utilisé des langues très présentes sur Internet, sans affronter par conséquent les problèmes des langues minoritaires lorsqu'il s'agit d'obtenir un corpus de taille adaptée.

Comme nous l'avons déjà dit, Co3 tente de créer un corpus en prenant Internet comme source. Dans ce but nous recueillons des documents sur Internet, et en appliquant différentes techniques nous examinons ces documents pour savoir s'ils sont bien adaptés à l'obtention d'un corpus de taille correcte.

Si nous appliquons ce processus pour obtenir un corpus en différentes langues, appartenant toujours au même domaine de la connaissance, nous pouvons obtenir des corpus comparables. Dans cette ligne, la recherche réalisée dans le cadre du projet Azerhitz sur les techniques pour mesurer la similitude entre les corpus peut être très utile.

Diffusion:

 

Retour au haut de la page

Services

Retour au haut de la page
Elhuyar dictionary hiztegia. Eusk/ing-eng/basq
22,32€Acheter
Elhuyar sinonimoen kutxa. Sinonimo eta antonimoen hiztegia
Elhuyar sinonimoen kutxa. Sinonimo eta antonimoen hiztegia
14,25€Acheter
Retour au haut de la page Retour au haut de la page

Copyright © 2007 Elhuyar Fundazioa | Avis juridique | Plan du site | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Retour au haut de la page