Adéquation des Modèles de Représentation aux Méthodes de Catégorisation
Abstract
Cet article s’interesse à la problématique de la catégorisation de documents et plus particulièrement à l’impact de la méthode de représentation des documents dans le processus de catégorisation. A partir de différents jeux de documents représentés dans un espace vectoriel tout d’abord basé sur les concepts puis basé sur une approche de type TF-IDF, nous évaluons les méthodes de catégorisation SVM et Rocchio. Nous comparons ensuite les deux méthodes précédentes avec une méthode de clustering flou. Nous dressons ensuite le bilan des différentes représentations des textes en terme de qualité des résultats de classification.