Ordre et Désordre dans la Catégorisation de Textes

Simon Jaillet; Maguelonne Teisseire; Anne Laurent; Jacques Chauché

Communication Dans Un Congrès Année : 2004

Ordre et Désordre dans la Catégorisation de Textes

(1) , (2) , (2) , (3)

1
2
3

Simon Jaillet

Fonction : Auteur

Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier

Maguelonne Teisseire

Fonction : Auteur
PersonId : 8645
IdHAL : maguelonne-teisseire
ORCID : 0000-0001-9313-6414
IdRef : 117436593

Fouille de données environnementales

Anne Laurent

Fonction : Auteur
PersonId : 21743
IdHAL : anne-laurent
ORCID : 0000-0003-3708-6429
IdRef : 075173735

Fouille de données environnementales

Jacques Chauché

Fonction : Auteur
PersonId : 938644

Exploration et exploitation de données textuelles

Résumé

Text categorization is a well-known task essentially based on statistical approaches using neural networks, Support Vector Machines and other machine learning algorithms. Texts are generally considered as bags of words without any order. Although these approaches have proven to be efficient, they do not provide users with comprehensive and reusable rules about their data. These rules are however very important for users in order to describe the trends from the data they have to analyze. In this framework, an association-rule based approach has been proposed by Bing Liu (CBA). In this paper, we propose to extend this approach by using sequential patterns in the SPaC method (Sequential Patterns for Classification). Taking order into account allows us to represent the succession of words through a document without complex and time-consuming representations and treatments such as those performed in natural language and grammatical methods. We show on experiments that our proposition is relevant, and that it is very interesting compared to other methods.

La classification automatique de textes est une tâche adressée notamment par des ap-proches statistiques à base de réseaux de neurones et de machines à vecteurs de support. Si ces approches permettent de réaliser de bons classifieurs au sens des mesures de classification, elles ne permettent pas de bénéficier de règles décrivant les décisions de classification. Or ces descriptions sont primordiales pour les experts démunis face aux grandes quantités de textes à analyser et traiter. Dans ce contexte, une approche à base de règles d'association a déjà été pro-posée par Bing Liu. Nous proposons dans cet article d'étendre cette approche par l'utilisation des motifs séquentiels avec la méthode SPaC (Sequential Patterns for Classification). La prise en compte de l'ordre des mots permet de représenter la succession de l'apparition des termes ou des concepts dans les textes. Des expérimentations, menées sur des ensembles de textes en français et anglais, montrent l'intérêt de la méthode proposée. La prise en compte de l'ordre des mots par les motifs séquentiels mène toujours à de meilleurs résultats que les méthodes basées sur les règles d'association.

Mots clés

Text Mining Categorization Sequential Patterns

Fouille de textes Catégorisation Motifs séquentiels

Domaines

Informatique [cs]

Fichier principal

lirmm-00108889v1.pdf (123.81 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Christine Carvalho De Matos : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00108889

Soumis le : mercredi 9 octobre 2019-10:12:29

Dernière modification le : mardi 12 mars 2024-10:45:56

Dates et versions

lirmm-00108889 , version 1 (09-10-2019)

Identifiants

HAL Id : lirmm-00108889 , version 1

Citer

Simon Jaillet, Maguelonne Teisseire, Anne Laurent, Jacques Chauché. Ordre et Désordre dans la Catégorisation de Textes. BDA: Bases de Données Avancées, Oct 2004, Montpellier, France. pp.555-573. ⟨lirmm-00108889⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS TEXTE LIRMM BDA MIPS UNIV-MONTPELLIER

96 Consultations

51 Téléchargements

Ordre et Désordre dans la Catégorisation de Textes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager