De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles

Flavien Bouillot; Pascal Poncelet; Mathieu Roche

Communication Dans Un Congrès Année : 2014

De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles

(1, 2) , (1) , (3, 1)

1
2
3

Flavien Bouillot

Fonction : Auteur
PersonId : 927300

ADVanced Analytics for data SciencE

Itesoft R&D

Pascal Poncelet

Fonction : Auteur
PersonId : 6247
IdHAL : pascal-poncelet
ORCID : 0000-0002-8277-3490
IdRef : 069260613

ADVanced Analytics for data SciencE

Mathieu Roche

Fonction : Auteur
PersonId : 4967
IdHAL : mathieu-roche
ORCID : 0000-0003-3272-8568
IdRef : 09042087X

Territoires, Environnement, Télédétection et Information Spatiale

ADVanced Analytics for data SciencE

Résumé

Un des défis actuels dans le domaine de la classification supervisée de documents est de pouvoir produire un modèle fiable à partir d'un faible volume de données. Avec un volume conséquent de données, les classifieurs fournissent des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérations résistant à une diminution du volume de données. Leur efficacité, évaluée en utilisant des algorithmes de classification supervisés existants (Naive Bayes et Class-Feature-Centroid) sur deux corpus différents, est supérieure à celle des autres algorithmes lorsque le nombre de descripteurs diminue. Nous avons étudié en parallèle les paramètres influençant les différentes approches telles que le nombre de classes, de documents ou de descripteurs.

Domaines

Autre Traitement du texte et du document Recherche d'information [cs.IR]

Fichier principal

lirmm-01054903.pdf (249.16 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Mathieu Roche : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01054903

Soumis le : mardi 6 novembre 2018-11:50:38

Dernière modification le : mardi 10 octobre 2023-16:38:10

Archivage à long terme le : jeudi 7 février 2019-14:45:33

Dates et versions

lirmm-01054903 , version 1 (06-11-2018)

Identifiants

HAL Id : lirmm-01054903 , version 1

Citer

Flavien Bouillot, Pascal Poncelet, Mathieu Roche. De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles. EGC: Extraction et Gestion des Connaissances, Jan 2014, Rennes, France. pp.131-142. ⟨lirmm-01054903⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CIRAD AGROPARISTECH CNRS IRSTEA ADVANSE LIRMM AGROPOLIS TETIS MIPS UNIV-MONTPELLIER INRAE INRAEOCCITANIEMONTPELLIER MATHNUM

242 Consultations

103 Téléchargements

De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager