How to Title Electronic Documents Using Text Mining Techniques

Cédric Lopez 1 Violaine Prince 1 Mathieu Roche 1, *
* Auteur correspondant
1 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Abstract : Automatic titling of text is a task allowing to determine a well formed word group able to represent the text in a relevant way. The main difficulty of this task is to determine a title having morpho-syntactic characteristics close to titles written by concerned people. Our approach has to be relevant for all type of text (e.g. news, emails, fora, and so forth). Our automatic titling method is developed in four stages: Corpus acquisition, candidate sentences determination for titling, noun phrase extraction in the candidate sentences, and finally, selecting a particular noun phrase to play the role of the text title (ChTITRES approach). Evaluation shows that titles determined by our methods are relevant.
Type de document :
Article dans une revue
International Journal of Computer Information Systems and Industrial Management Applications, Machine Intelligence Research Labs (MIR Labs), 2012, 4, pp.562-569
Liste complète des métadonnées

Littérature citée [21 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00687096
Contributeur : Cédric Lopez <>
Soumis le : jeudi 12 avril 2012 - 11:39:33
Dernière modification le : jeudi 11 janvier 2018 - 06:26:53
Document(s) archivé(s) le : vendredi 13 juillet 2012 - 09:18:21

Fichier

Paper62.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-00687096, version 1

Collections

Citation

Cédric Lopez, Violaine Prince, Mathieu Roche. How to Title Electronic Documents Using Text Mining Techniques. International Journal of Computer Information Systems and Industrial Management Applications, Machine Intelligence Research Labs (MIR Labs), 2012, 4, pp.562-569. 〈lirmm-00687096〉

Partager

Métriques

Consultations de la notice

198

Téléchargements de fichiers

289