Mesurer la proximité entre corpus par de nouveaux méta-descripteurs
Résumé
Given the number of existing classification algorithms, finding the most appropriate for classifying a new corpus is a difficult task. Meta-classification appears today very useful to help to determine, by using past experiences, what should be the most suitable algorithm compared to our corpus. The underlying idea is that "if an algorithm was particularly suitable for a corpus, it should have the same behavior on a quite similar corpus.". In this paper, we propose new meta-descriptors based on the concept of similarity to improve the meta-classification step. Conducted experiments on real dataset show the relevance of our new meta-descriptors.
Devant le nombre d'algorithmes de classification existants, trouver l'algorithme qui sera le plus adapté pour classer un corpus de documents est une tâche difficile. La méta-classification apparaît aujourd'hui très utile pour aider à déterminer, en fonction des expé-riences passées, quel devrait être l'algorithme le plus pertinent par rapport à notre corpus. L'idée sous jacente est que "si un algorithme s'est montré particulièrement adapté pour un corpus , il devrait avoir le même comportement sur un corpus assez similaire". Dans cet article, nous proposons de nouveaux méta-descripteurs reposant sur les notions de similarités pour améliorer l'étape de méta-classification. Les expérimentations menées sur différents jeux de données réelles montrent la pertinence de nos nouveaux descripteurs.
Origine | Fichiers produits par l'(les) auteur(s) |
---|
Loading...