Classification Automatique de Textes à partir de leur Analyse Syntaxico-Sémantique

This paper presents the assumption that discourse analysis, when perfomed by a robust parser backed up by an accurate semantic model, is a classification tool as efficient as statistical meth- ods. To study the capabilities of discourse analysis in classification, we have used a parser for French, SYGMART, and applied it to a real project of press articles classification. This article presents the results of this research (on a corpus of 4843 texts), and tries to show that auto- matic discourse analysis, when possible, is an efficient way of classification through meaning discrimination, and not simply relying on surface similarities recognition.

L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.

Mots clés

Domaines

Informatique [cs]

Fichier principal

2003-jeptalnrecital-long4.pdf (107.05 Ko)

Origine	Fichiers produits par l'(les) auteur(s)
Licence	Autorisation HAL

Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00269561

Soumis le : mercredi 21 septembre 2022-17:01:42

Dernière modification le : mardi 12 mars 2024-10:44:34

Archivage à long terme le : jeudi 22 décembre 2022-19:23:27

Dates et versions

lirmm-00269561 , version 1 (21-09-2022)

Licence

Autorisation HAL

Identifiants

HAL Id : lirmm-00269561 , version 1

Citer

Jacques Chauché, Violaine Prince, Simon Jaillet, Maguelonne Teisseire. Classification Automatique de Textes à partir de leur Analyse Syntaxico-Sémantique. TALN 2003 - 10ème Conférence Internationale sur le Traitement Automatique du Langage Naturel, Jun 2003, Batz-sur-Mer, France. pp.55-65. ⟨lirmm-00269561⟩

Exporter

Collections

200 Consultations

141 Téléchargements