Identification des unités de mesure dans les textes scientifiques

Soumia Lilia Berrahou 1, 2, 3 Patrice Buche 2, 3 Juliette Dibie 4 Mathieu Roche 1, 5
1 ADVANSE - ADVanced Analytics for data SciencE
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
3 GRAPHIK - Graphs for Inferences on Knowledge
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Le travail présenté dans cet article se situe dans le cadre de l'identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d'unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l'apprentissage supervisé. Cette méthode permet de réduire sensiblement l'espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l'espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l'espace de recherche réduit aux variants d'unités, utilise une nouvelle mesure de similarité permettant d'identifier automatiquement les variants découverts par rapport à un terme d'unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié.
Type de document :
Communication dans un congrès
TALN: Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. ATALA, 22ième conférence sur le Traitement Automatique des Langues Naturelles (TALN'2015), pp.404-410, 2015
Liste complète des métadonnées

Littérature citée [7 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01184559
Contributeur : Mathieu Roche <>
Soumis le : dimanche 16 août 2015 - 05:30:25
Dernière modification le : jeudi 28 juin 2018 - 11:07:00
Document(s) archivé(s) le : mardi 17 novembre 2015 - 10:11:05

Fichier

taln-2015-court-014.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : lirmm-01184559, version 1

Citation

Soumia Lilia Berrahou, Patrice Buche, Juliette Dibie, Mathieu Roche. Identification des unités de mesure dans les textes scientifiques. TALN: Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. ATALA, 22ième conférence sur le Traitement Automatique des Langues Naturelles (TALN'2015), pp.404-410, 2015. 〈lirmm-01184559〉

Partager

Métriques

Consultations de la notice

454

Téléchargements de fichiers

235