ExpLSA et classification de textes - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier Access content directly
Conference Papers Year : 2008

ExpLSA et classification de textes

Abstract

L'analyse sémantique latente (LSA - Latent Semantic Analysis) est une méthode statistique qui peut être utilisée pour des tâches de classification de textes. La quantité des données textuelles (taille des documents à classer) est souvent un critère déterminant pour de telles tâches. Ainsi, cet article propose une méthode d'expansion des phrases des textes afin d'enrichir les données textuelles et améliorer les méthodes de classification. Les résultats expérimentaux obtenus à partir d'un corpus de dépêches d'actualité ont permis de caractériser les types de textes pour lesquels notre méthode améliore LSA.
Fichier principal
Vignette du fichier
jadt08_NB_MR_JC.pdf (921.75 Ko) Télécharger le fichier
Origin : Publisher files allowed on an open archive
Loading...

Dates and versions

lirmm-00335878 , version 1 (14-11-2008)

Identifiers

  • HAL Id : lirmm-00335878 , version 1

Cite

Nicolas Béchet, Mathieu Roche, Jacques Chauché. ExpLSA et classification de textes. JADT'08: Journées internationales d'Analyse statistique des Données Textuelles, Mar 2008, Lyon, France. pp.167-177. ⟨lirmm-00335878⟩
233 View
1381 Download

Share

Gmail Facebook X LinkedIn More