GenDesc : Vers une nouvelle représentation des données textuelles

Dans cet article, nous nous intéressons à la classification automatique de données textuelles par des algorithmes d'apprentissage supervisé. L'objectif est de montrer comment l'amélioration de la représentation des données textuelles influe sur les performances des algorithmes d'apprentissage. Partant du postulat qu'un mot n'a pas un sens bien établi sans son contexte, nous proposerons des descripteurs donnant le plus d'information possible sur le contexte des mots. Pour cela, nous avons mis au point une méthode, nommée GENDESC, qui consiste à "généraliser" les mots les moins pertinents pour la classification, c'est-à-dire, à éviter le bruit sémantique (souvent dû à la polysémie) provoqué par ces termes non ou peu pertinents. Cette généralisation s'appuie sur des informations grammaticales, telles que la catégorie et la position dans la structure. La méthode GENDESC a été évaluée et adaptée à la problématique de classification de textes selon une opinion ou une thématique.

Domaines

Autre Recherche d'information [cs.IR] Traitement du texte et du document

Mathieu Roche : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01096176

Soumis le : mardi 16 décembre 2014-22:24:53

Dernière modification le : mardi 10 octobre 2023-16:38:10

Dates et versions

lirmm-01096176 , version 1 (16-12-2014)

Identifiants

HAL Id : lirmm-01096176 , version 1

Citer

Guillaume Tisserant, Violaine Prince, Mathieu Roche. GenDesc : Vers une nouvelle représentation des données textuelles. Revue des Nouvelles Technologies de l'Information, 2014, FDC'2014: Fouille de données complexes, RNTI-E-27, pp.127-146. ⟨lirmm-01096176⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CIRAD AGROPARISTECH CNRS IRSTEA ADVANSE LIRMM AGROPOLIS TETIS MIPS UNIV-MONTPELLIER INRAE INRAEOCCITANIEMONTPELLIER MATHNUM

445 Consultations

0 Téléchargements