Classification Automatique de Textes à partir de leur Analyse Syntaxico-Sémantique
Abstract
This paper presents the assumption that discourse analysis, when perfomed by a robust parser backed up by an accurate semantic model, is a classification tool as efficient as statistical meth- ods. To study the capabilities of discourse analysis in classification, we have used a parser for French, SYGMART, and applied it to a real project of press articles classification. This article presents the results of this research (on a corpus of 4843 texts), and tries to show that auto- matic discourse analysis, when possible, is an efficient way of classification through meaning discrimination, and not simply relying on surface similarities recognition.
L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.
Origin | Files produced by the author(s) |
---|