ExpLSA et classification de textes - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

ExpLSA et classification de textes

Résumé

L'analyse sémantique latente (LSA - Latent Semantic Analysis) est une méthode statistique qui peut être utilisée pour des tâches de classification de textes. La quantité des données textuelles (taille des documents à classer) est souvent un critère déterminant pour de telles tâches. Ainsi, cet article propose une méthode d'expansion des phrases des textes afin d'enrichir les données textuelles et améliorer les méthodes de classification. Les résultats expérimentaux obtenus à partir d'un corpus de dépêches d'actualité ont permis de caractériser les types de textes pour lesquels notre méthode améliore LSA.
Fichier principal
Vignette du fichier
jadt08_NB_MR_JC.pdf (921.75 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

lirmm-00335878 , version 1 (14-11-2008)

Identifiants

  • HAL Id : lirmm-00335878 , version 1

Citer

Nicolas Béchet, Mathieu Roche, Jacques Chauché. ExpLSA et classification de textes. JADT'08: Journées internationales d'Analyse statistique des Données Textuelles, Mar 2008, Lyon, France. pp.167-177. ⟨lirmm-00335878⟩
235 Consultations
1382 Téléchargements

Partager

Gmail Facebook X LinkedIn More