ExpLSA et classification de textes

Nicolas Béchet 1 Mathieu Roche 2, 1 Jacques Chauché 3, 1
1 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : L'analyse sémantique latente (LSA - Latent Semantic Analysis) est une méthode statistique qui peut être utilisée pour des tâches de classification de textes. La quantité des données textuelles (taille des documents à classer) est souvent un critère déterminant pour de telles tâches. Ainsi, cet article propose une méthode d'expansion des phrases des textes afin d'enrichir les données textuelles et améliorer les méthodes de classification. Les résultats expérimentaux obtenus à partir d'un corpus de dépêches d'actualité ont permis de caractériser les types de textes pour lesquels notre méthode améliore LSA.
Type de document :
Communication dans un congrès
JADT'08: Journées internationales d'Analyse statistique des Données Textuelles, Mar 2008, Lyon, France. pp.167-177, 2008
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00335878
Contributeur : Nicolas Béchet <>
Soumis le : vendredi 14 novembre 2008 - 07:00:04
Dernière modification le : jeudi 24 mai 2018 - 15:59:23
Document(s) archivé(s) le : lundi 7 juin 2010 - 20:50:40

Fichier

jadt08_NB_MR_JC.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : lirmm-00335878, version 1

Collections

Citation

Nicolas Béchet, Mathieu Roche, Jacques Chauché. ExpLSA et classification de textes. JADT'08: Journées internationales d'Analyse statistique des Données Textuelles, Mar 2008, Lyon, France. pp.167-177, 2008. 〈lirmm-00335878〉

Partager

Métriques

Consultations de la notice

291

Téléchargements de fichiers

1251