ExpLSA et classification de textes

Nicolas Béchet; Mathieu Roche; Jacques Chauché

Communication Dans Un Congrès Année : 2008

ExpLSA et classification de textes

(1) , (2, 1) , (3, 1)

1
2
3

Nicolas Béchet

Fonction : Auteur
PersonId : 181774
IdHAL : nicolas-bechet
ORCID : 0000-0001-9425-5570
IdRef : 142928879

Exploration et exploitation de données textuelles

Mathieu Roche

Fonction : Auteur
PersonId : 4967
IdHAL : mathieu-roche
ORCID : 0000-0003-3272-8568
IdRef : 09042087X

Laboratoire de Recherche en Informatique

Exploration et exploitation de données textuelles

Jacques Chauché

Fonction : Auteur
PersonId : 938644

IMAG

Exploration et exploitation de données textuelles

Résumé

L'analyse sémantique latente (LSA - Latent Semantic Analysis) est une méthode statistique qui peut être utilisée pour des tâches de classification de textes. La quantité des données textuelles (taille des documents à classer) est souvent un critère déterminant pour de telles tâches. Ainsi, cet article propose une méthode d'expansion des phrases des textes afin d'enrichir les données textuelles et améliorer les méthodes de classification. Les résultats expérimentaux obtenus à partir d'un corpus de dépêches d'actualité ont permis de caractériser les types de textes pour lesquels notre méthode améliore LSA.

Domaines

Recherche d'information [cs.IR] Traitement du texte et du document

Fichier principal

jadt08_NB_MR_JC.pdf (921.75 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Nicolas Béchet : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00335878

Soumis le : vendredi 14 novembre 2008-07:00:04

Dernière modification le : samedi 10 février 2024-03:07:55

Archivage à long terme le : lundi 7 juin 2010-20:50:40

Dates et versions

lirmm-00335878 , version 1 (14-11-2008)

Identifiants

HAL Id : lirmm-00335878 , version 1

Citer

Nicolas Béchet, Mathieu Roche, Jacques Chauché. ExpLSA et classification de textes. JADT'08: Journées internationales d'Analyse statistique des Données Textuelles, Mar 2008, Lyon, France. pp.167-177. ⟨lirmm-00335878⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS CNRS UMR8623 TEXTE LIRMM UNIV-PARIS-SACLAY MIPS UNIV-MONTPELLIER

235 Consultations

1382 Téléchargements

ExpLSA et classification de textes

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager