Classification automatique de documents bruités à faible contenu textuel

Sami Laroum; Nicolas Béchet; Hatem Hamza; Mathieu Roche

Article Dans Une Revue Revue des Nouvelles Technologies de l'Information Année : 2010

Classification automatique de documents bruités à faible contenu textuel

(1, 2) , (3) , (4) , (3)

1
2
3
4

Sami Laroum

Fonction : Auteur

Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier

Laboratoire d'Etudes et de Recherche en Informatique d'Angers

Nicolas Béchet

Fonction : Auteur
PersonId : 181774
IdHAL : nicolas-bechet
ORCID : 0000-0001-9425-5570
IdRef : 142928879

Exploration et exploitation de données textuelles

Hatem Hamza

Fonction : Auteur

Itesoft R&D

Mathieu Roche

Fonction : Auteur
PersonId : 4967
IdHAL : mathieu-roche
ORCID : 0000-0003-3272-8568
IdRef : 09042087X

Exploration et exploitation de données textuelles

Résumé

La classification de documents numériques est une tâche complexe dans un flux numérique de gestion électronique de documents. Cependant, la quantité des documents issus de la retro-conversion d'OCR (Reconnaissance Optique de Caractères) constitue une problématique qui ne facilite pas la tâche de classification. Après l'étude et l'évaluation des descripteurs les mieux adaptés aux documents issus d'OCR, nous proposons une nouvelle approche de représentation des données textuelles : l'approche HYBRED (HYBrid REpresentation of Documents). Elle permet de combiner l'utilisation de différents descripteurs d'un texte afin d'obtenir une représentation plus pertinente de celui-ci. Les expérimentations menées sur des données réelles ont montré l'intérêt de notre approche.

Domaines

Recherche d'information [cs.IR] Traitement du texte et du document

Fichier principal

RNTI_SL_NB_HH_MR_vfinal.pdf (230.63 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Nicolas Béchet : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00394668

Soumis le : vendredi 12 juin 2009-11:56:16

Dernière modification le : vendredi 24 mars 2023-14:52:52

Archivage à long terme le : vendredi 11 juin 2010-00:39:37

Dates et versions

lirmm-00394668 , version 1 (12-06-2009)

Identifiants

HAL Id : lirmm-00394668 , version 1

Citer

Sami Laroum, Nicolas Béchet, Hatem Hamza, Mathieu Roche. Classification automatique de documents bruités à faible contenu textuel. Revue des Nouvelles Technologies de l'Information, 2010, E-18 (Numéro spécial : Fouille de Données Complexes), pp.25. ⟨lirmm-00394668⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS UNIV-ANGERS TEXTE LIRMM MIPS UNIV-MONTPELLIER LERIA

458 Consultations

1712 Téléchargements

Classification automatique de documents bruités à faible contenu textuel

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager