Hybred: An OCR Document Representation for Classification Tasks

Abstract : The classification of digital documents is a complex task in a document analysis flow. The amount of documents resulting from the OCR retro-conversion (optical character recognition) makes the classification task harder. In the literature, different features are used to improve the classification quality. In this paper, we evaluate various features on OCRed and non OCRed documents. Thanks to this evaluation, we propose the HYBRED (HYBrid REpresentation of Documents) approach which combines different features in a single relevant representation. The experiments conducted on real data show the interest of this approach.
Type de document :
Article dans une revue
International Journal of Computer Science Issues, IJCSI Press, 2011, 8 (3), pp.1-8. 〈http://www.ijcsi.org/papers/IJCSI-8-3-2-1-8.pdf〉
Liste complète des métadonnées

Littérature citée [22 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00723581
Contributeur : Mathieu Roche <>
Soumis le : vendredi 10 août 2012 - 22:22:08
Dernière modification le : vendredi 25 mai 2018 - 12:02:04
Document(s) archivé(s) le : vendredi 16 décembre 2016 - 06:03:03

Fichier

IJCSI-8-3-2-1.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : lirmm-00723581, version 1

Collections

Citation

Sami Laroum, Nicolas Béchet, Hatem Hamza, Mathieu Roche. Hybred: An OCR Document Representation for Classification Tasks. International Journal of Computer Science Issues, IJCSI Press, 2011, 8 (3), pp.1-8. 〈http://www.ijcsi.org/papers/IJCSI-8-3-2-1-8.pdf〉. 〈lirmm-00723581〉

Partager

Métriques

Consultations de la notice

359

Téléchargements de fichiers

904