Classification Automatique de Textes à partir de leur Analyse Syntaxico-Sémantique - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier Accéder directement au contenu
Communication Dans Un Congrès Année : 2003

Classification Automatique de Textes à partir de leur Analyse Syntaxico-Sémantique

Résumé

This paper presents the assumption that discourse analysis, when perfomed by a robust parser backed up by an accurate semantic model, is a classification tool as efficient as statistical meth- ods. To study the capabilities of discourse analysis in classification, we have used a parser for French, SYGMART, and applied it to a real project of press articles classification. This article presents the results of this research (on a corpus of 4843 texts), and tries to show that auto- matic discourse analysis, when possible, is an efficient way of classification through meaning discrimination, and not simply relying on surface similarities recognition.
L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.
Fichier principal
Vignette du fichier
2003-jeptalnrecital-long4.pdf (107.05 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

lirmm-00269561 , version 1 (21-09-2022)

Identifiants

  • HAL Id : lirmm-00269561 , version 1

Citer

Jacques Chauché, Violaine Prince, Simon Jaillet, Maguelonne Teisseire. Classification Automatique de Textes à partir de leur Analyse Syntaxico-Sémantique. TALN 2003 - 10ème Conférence Internationale sur le Traitement Automatique du Langage Naturel, Jun 2003, Batz-sur-Mer, France. pp.55-65. ⟨lirmm-00269561⟩
98 Consultations
8 Téléchargements

Partager

Gmail Facebook X LinkedIn More