Extraction automatique de termes combinant différentes informations

Juan Antonio Lossio-Ventura 1, * Clement Jonquet 2 Mathieu Roche 3, 1 Maguelonne Teisseire 1
* Auteur correspondant
1 ADVANSE - ADVanced Analytics for data SciencE
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
2 SMILE - Système Multi-agent, Interaction, Langage, Evolution
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Pour une communauté, la terminologie est essentielle car elle permet de décrire, échanger et récupérer les données. Dans de nombreux domaines, l'explosion du volume des données textuelles nécessite de recourir à une automatisation du processus d'extraction de la terminologie, voire son enrichissement. L'extraction automatique de termes peut s'appuyer sur des approches de traitement du langage naturel. Des méthodes prenant en compte les aspects linguistiques et statistiques proposées dans la littérature, résolvent quelques problèmes liés à l'extraction de termes tels que la faible fréquence, la complexité d'extraction de termes de plusieurs mots, ou l'effort humain pour valider les termes candidats. Dans ce contexte, nous proposons deux nouvelles mesures pour l'extraction et le "ranking" des termes formés de plusieurs mots à partir des corpus spécifiques d'un domaine. En outre, nous montrons comment l'utilisation du Web pour évaluer l'importance d'un terme candidat permet d'améliorer les résultats en terme de précision. Ces expérimentations sont réalisées sur le corpus biomédical GENIA en utilisant des mesures de la littérature telles que C-value.
Type de document :
Communication dans un congrès
TALN: Traitement Automatique des Langues Naturelles, Jul 2014, Marseille, France. 21ème, pp.407-412, 2014, 〈http://www.taln2014.org/site/〉
Liste complète des métadonnées

Littérature citée [17 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01020051
Contributeur : Juan Antonio Lossio Ventura <>
Soumis le : lundi 7 juillet 2014 - 16:24:35
Dernière modification le : lundi 22 octobre 2018 - 09:54:03
Document(s) archivé(s) le : lundi 12 octobre 2015 - 11:36:58

Fichier

TALN2014.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-01020051, version 1

Citation

Juan Antonio Lossio-Ventura, Clement Jonquet, Mathieu Roche, Maguelonne Teisseire. Extraction automatique de termes combinant différentes informations. TALN: Traitement Automatique des Langues Naturelles, Jul 2014, Marseille, France. 21ème, pp.407-412, 2014, 〈http://www.taln2014.org/site/〉. 〈lirmm-01020051〉

Partager

Métriques

Consultations de la notice

665

Téléchargements de fichiers

480