Classification automatique de documents bruités à faible contenu textuel

Résumé : La classification de documents numériques est une tâche complexe dans un flux numérique de gestion électronique de documents. Cependant, la quantité des documents issus de la retro-conversion d'OCR (Reconnaissance Optique de Caractères) constitue une problématique qui ne facilite pas la tâche de classification. Après l'étude et l'évaluation des descripteurs les mieux adaptés aux documents issus d'OCR, nous proposons une nouvelle approche de représentation des données textuelles : l'approche HYBRED (HYBrid REpresentation of Documents). Elle permet de combiner l'utilisation de différents descripteurs d'un texte afin d'obtenir une représentation plus pertinente de celui-ci. Les expérimentations menées sur des données réelles ont montré l'intérêt de notre approche.
Type de document :
Article dans une revue
Revue des Nouvelles Technologies de l'Information, Hermann, 2010, E-18 (Numéro spécial : Fouille de Données Complexes), pp.25
Liste complète des métadonnées

Littérature citée [39 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00394668
Contributeur : Nicolas Béchet <>
Soumis le : vendredi 12 juin 2009 - 11:56:16
Dernière modification le : jeudi 24 mai 2018 - 15:59:23
Document(s) archivé(s) le : vendredi 11 juin 2010 - 00:39:37

Fichier

RNTI_SL_NB_HH_MR_vfinal.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-00394668, version 1

Collections

Citation

Sami Laroum, Nicolas Béchet, Hatem Hamza, Mathieu Roche. Classification automatique de documents bruités à faible contenu textuel. Revue des Nouvelles Technologies de l'Information, Hermann, 2010, E-18 (Numéro spécial : Fouille de Données Complexes), pp.25. 〈lirmm-00394668〉

Partager

Métriques

Consultations de la notice

580

Téléchargements de fichiers

1661