How Statistical Information from the Web can Help Identify Named Entities

Mathieu Roche 1
1 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Abstract : This paper presents a Natural Language Processing (NLP) approach to filter Named Entities (NE) from a list of collocation candidates. The NE are defined as the names of 'People', 'Places', 'Organizations', 'Software', 'Illnesses', and so forth. The proposed method is based on statistical measures associated with Web resources to identify NE. Our method has three stages: (1) Building artificial prepositional collocations from Noun-Noun candidates; (2) Measuring the "relevance" of the resulting prepositional collocations using statistical methods (Web Mining); (3) Selecting prepositional collocations. The evaluation of Noun-Noun collocations from French and English corpora confirmed the relevance of our system.
Type de document :
Communication dans un congrès
WEBIST'11: Web Information Systems and Technologies - Web and Text Mining Session, Netherlands. pp.685-689, 2011
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00588581
Contributeur : Mathieu Roche <>
Soumis le : dimanche 8 mai 2011 - 19:14:09
Dernière modification le : jeudi 24 mai 2018 - 15:59:23
Document(s) archivé(s) le : vendredi 9 novembre 2012 - 10:55:38

Fichier

MR_Webist2011.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-00588581, version 1

Collections

Citation

Mathieu Roche. How Statistical Information from the Web can Help Identify Named Entities. WEBIST'11: Web Information Systems and Technologies - Web and Text Mining Session, Netherlands. pp.685-689, 2011. 〈lirmm-00588581〉

Partager

Métriques

Consultations de la notice

191

Téléchargements de fichiers

644