Identification des unités de mesure dans les textes scientifiques

Identification of units of measures in scientific texts. The work presented in this paper consists in identifying specialized terms (units of measures) in textual documents in order to enrich a onto-terminological resource (OTR). The first step permits to predict the localization of unit of measure variants in the documents. We have used a method based on supervised learning. This method permits to reduce significantly the variant search space staying in an optimal search context (reduction of 86% of the search space on the studied set of documents). The second step uses a new similarity measure identifying automatically variants associated with term denoting a unit of measure already present in the OTR with a precision rate of 82% for a threshold above 0.6 on the studied corpus.

Le travail présenté dans cet article se situe dans le cadre de l'identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d'unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l'apprentissage supervisé. Cette méthode permet de réduire sensiblement l'espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l'espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l'espace de recherche réduit aux variants d'unités, utilise une nouvelle mesure de similarité permettant d'identifier automatiquement les variants découverts par rapport à un terme d'unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié.

Mots clés

onto-terminological resource learning similarity

ressource termino-ontologique apprentissage similarité Intelligence Artificielle Traitement automatique de la langue

Domaines

Recherche d'information [cs.IR] Apprentissage [cs.LG] Traitement du texte et du document Intelligence artificielle [cs.AI]

Fichier principal

taln-2015-court-014.pdf (332.89 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Mathieu Roche : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01184559

Soumis le : dimanche 16 août 2015-05:30:25

Dernière modification le : jeudi 14 novembre 2024-16:18:04

Archivage à long terme le : mardi 17 novembre 2015-10:11:05

Dates et versions

lirmm-01184559 , version 1 (16-08-2015)

Identifiants

HAL Id : lirmm-01184559 , version 1
PRODINRA : 308986

Citer

Soumia Lilia Berrahou, Patrice Buche, Juliette Dibie-Barthelemy, Mathieu Roche. Identification des unités de mesure dans les textes scientifiques. TALN: Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. pp.404-410. ⟨lirmm-01184559⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CIRAD AGROPARISTECH CNRS INRIA IRSTEA INRA IATE ADVANSE GRAPHIK LIRMM MIA-PARIS AGROPOLIS INRIA2 TETIS MIPS BA UNIV-MONTPELLIER INSTITUT-AGRO-MONTPELLIER INRAE INRAEOCCITANIEMONTPELLIER GS-COMPUTER-SCIENCE MATHNUM

558 Consultations

276 Téléchargements