Classification de textes : de nouvelles pondérations adaptées aux petits volumes

Flavien Bouillot 1, 2
1 ADVANSE - ADVanced Analytics for data SciencE
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Au quotidien, le réflexe de classifier est omniprésent et inconscient. Par exemple, dans le processus de prise de décision où face à un élément (un objet, un événement, une personne) nous allons instinctivement chercher à rapprocher cet élément d’autres similaires afin d’adapter nos choix et nos comportements. Cette association à telle ou telle catégorie repose sur les expériences passées et les caractéristiques de l’élément. Plus les expériences seront nombreuses et les caractéristiques détaillées, plus fine et pertinente sera la décision. Il en est de même lors- qu’il nous faut catégoriser un document en fonction de son contenu. Par exemple détecter s’il s’agit d’un conte pour enfants ou d’un traité de philosophie. Ce traitement est bien sûr d’autant plus efficace si nous possédons un grand nombre d’ouvrages de ces deux catégories et que l’ouvrage à classifier possède un nombre important de mots. Dans cette thèse, nous nous intéressons à la problématique de la prise de décision lorsque nous disposons de peu de documents d’apprentissage et que le document possède un nombre de mots limité. Nous proposons pour cela une nouvelle approche qui repose sur de nouvelles pondérations. Elle nous permet de déterminer avec précision l’importance à accorder aux mots composant le document. Afin d’optimiser les traitements, nous proposons une approche paramétrable. Cinq paramètres rendent notre système adaptable, quel que soit le problème de classification donné. De très nombreuses expérimentations ont été menées sur différents types de documents qui sont de langues variées et en appliquant différentes configurations. Selon les corpus, elles mettent en évidence que notre proposition permet d’obtenir des résultats supérieurs en comparaison avec les meilleures approches de la littérature pour traiter de petits volumes de données. L’utilisation de paramètres introduit une complexité supplémentaire puisqu’il faut alors déterminer les valeurs optimales. Détecter les meilleurs paramètres et algorithmes est une tâche compliquée dont la difficulté est théorisée à travers le théorème du No-Free-Lunch. Nous traitons cette seconde problématique en proposant une nouvelle approche de méta-classification reposant sur les notions de distances et de similarités. Plus précisément, nous proposons de nouveaux méta-descripteurs adaptés dans un contexte de classification de documents. Cette approche originale nous permet d’obtenir des résultats similaires aux meilleures approches de la littérature tout en offrant des qualités supplémentaires.
Type de document :
Thèse
Base de données [cs.DB]. Université de Montpellier, 2015. Français
Liste complète des métadonnées

Littérature citée [162 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/tel-01379336
Contributeur : Pascal Poncelet <>
Soumis le : mardi 11 octobre 2016 - 13:58:17
Dernière modification le : jeudi 24 mai 2018 - 15:59:25
Document(s) archivé(s) le : samedi 4 février 2017 - 18:52:41

Identifiants

  • HAL Id : tel-01379336, version 1

Collections

Citation

Flavien Bouillot. Classification de textes : de nouvelles pondérations adaptées aux petits volumes. Base de données [cs.DB]. Université de Montpellier, 2015. Français. 〈tel-01379336〉

Partager

Métriques

Consultations de la notice

242

Téléchargements de fichiers

631