Text Classification: Towards new ponderation measures for small volumes
Classification de textes : de nouvelles pondérations adaptées aux petits volumes
Abstract
Every day, classification is omnipresent and unconscious. For example in the process of decision when faced with something (an object, an event, a person), we will instinctively think of similar elements in order to adapt our choices and behaviors. This storage in a particular category is based on past experiences and characteristics of the element. The largest and the most accurate will be experiments, the most relevant will be the decision. It is the same when we need to categorize a document based on its content. For example detect if there is a children’s story or a philosophical treatise. This treatment is of course more effective if we have a large number of works of these two categories and if books had a large number of words.
In this thesis we address the problem of decision making precisely when we have few learning documents and when the documents had a limited number of words. For this we propose a new approach based on new weights. It enables us to accurately determine the weight to be given to the words which compose the document. To optimize treatment, we propose a configurable approach. Five parameters make our adaptable approach, regardless of the classification given problem. Numerous experiments have been conducted on various types of documents in different languages and in different configurations. According to the corpus, they highlight that our proposal allows us to achieve superior results in comparison with the best approaches in the literature to address the problems of small dataset.
The use of parameters adds complexity since it is then necessary to determine optimital values. Detect the best settings and best algorithms is a complicated task whose difficulty is theorized through the theorem of No-Free-Lunch. We treat this second problem by proposing a new meta-classification approach based on the concepts of distance and semantic similarities. Specifically we propose new meta-features to deal in the context of classification of documents. This original approach allows us to achieve similar results with the best approaches to literature while providing additional features.
In conclusion, the work presented in this manuscript has been integrated into various technical implementations, one in the Weka software, one in a industrial prototype and a third in the product of the company that funded this work.
Au quotidien, le réflexe de classifier est omniprésent et inconscient. Par exemple, dans le processus de prise de décision où face à un élément (un objet, un événement, une personne) nous allons instinctivement chercher à rapprocher cet élément d’autres similaires afin d’adapter nos choix et nos comportements. Cette association à telle ou telle catégorie repose sur les expériences passées et les caractéristiques de l’élément. Plus les expériences seront nombreuses et les caractéristiques détaillées, plus fine et pertinente sera la décision. Il en est de même lors- qu’il nous faut catégoriser un document en fonction de son contenu. Par exemple détecter s’il s’agit d’un conte pour enfants ou d’un traité de philosophie. Ce traitement est bien sûr d’autant plus efficace si nous possédons un grand nombre d’ouvrages de ces deux catégories et que l’ouvrage à classifier possède un nombre important de mots.
Dans cette thèse, nous nous intéressons à la problématique de la prise de décision lorsque nous disposons de peu de documents d’apprentissage et que le document possède un nombre de mots limité. Nous proposons pour cela une nouvelle approche qui repose sur de nouvelles pondérations. Elle nous permet de déterminer avec précision l’importance à accorder aux mots composant le document.
Afin d’optimiser les traitements, nous proposons une approche paramétrable. Cinq paramètres rendent notre système adaptable, quel que soit le problème de classification donné. De très nombreuses expérimentations ont été menées sur différents types de documents qui sont de langues variées et en appliquant différentes configurations. Selon les corpus, elles mettent en évidence que notre proposition permet d’obtenir des résultats supérieurs en comparaison avec les meilleures approches de la littérature pour traiter de petits volumes de données.
L’utilisation de paramètres introduit une complexité supplémentaire puisqu’il faut alors déterminer les valeurs optimales. Détecter les meilleurs paramètres et algorithmes est une tâche compliquée dont la difficulté est théorisée à travers le théorème du No-Free-Lunch. Nous traitons cette seconde problématique en proposant une nouvelle approche de méta-classification reposant sur les notions de distances et de similarités. Plus précisément, nous proposons de nouveaux méta-descripteurs adaptés dans un contexte de classification de documents. Cette approche originale nous permet d’obtenir des résultats similaires aux meilleures approches de la littérature tout en offrant des qualités supplémentaires.
Loading...