FrenchSentiClass : an Automated System for French Sentiment Classification
FrenchSentiClass : un Système Automatisé pour la Classification de Sentiments en Français
Abstract
This paper describes the system we used on the tasks of the text mining challenge (DEFT 2017). This thirteenth edition of this challenge concerned the analysis of opinions and figurative language in French tweets. Three tasks have been proposed : (i) the first one concerns the classification of non-figurative tweets according to their polarity ; (ii) the second one concerns the identification of figurative language, while (iii) the third one concerns the classification of figurative and non-figurative tweets according to their polarity. We proposed an automated system based on Support Vector Machines (SVM). The system automatically chooses on each step the best preprocessing, syntactic features and sentiment lexicons by cross validation on the training set. Furthermore, it performs an evaluation of feature subset selection and a tuning SVM complexity parameter. Therefore, this system can significantly reduce the time necessary to explore the data and choose the best feature representation.
Ce papier décrit le système FrenchSentiClass que nous avons utilisé pour les tâches du défi de fouilles de texte (DEFT 2017). Cette treizième édition du défi a porté sur l'analyse de l'opinion et du langage figuratif dans des tweets rédigés en Français. Le défi propose trois tâches : (i) la première concerne la classification des tweets non figuratifs selon leur polarité ; (ii) la deuxième concerne l'identification du langage figuratif et (iii) la troisième concerne la classification des tweets figuratifs et non figuratifs selon leur polarité. Nous avons proposé un système automatisé basé sur les Machines à Vecteurs de Support (SVM). Le système choisit automatiquement à chaque niveau les meilleurs prétraitements, descripteurs syntaxiques et lexiques de sentiments en validation croisée sur l'ensemble d'apprentissage. Il effectue aussi une évaluation de l'apport de la sélection d'attributs et un tuning du paramètre de complexité du modèle SVM. Par conséquent, ce système permet de réduire considérablement le temps d'exploration des données et du choix de la meilleur représentation de descripteurs. ABSTRACT FrenchSentiClass : an Automated System for French Sentiment Classification This paper describes the system we used on the tasks of the text mining challenge (DEFT 2017). This thirteenth edition of this challenge concerned the analysis of opinions and figurative language in French tweets. Three tasks have been proposed : (i) the first one concerns the classification of non-figurative tweets according to their polarity ; (ii) the second one concerns the identification of figurative language, while (iii) the third one concerns the classification of figurative and non-figurative tweets according to their polarity. We proposed an automated system based on Support Vector Machines (SVM). The system automatically chooses on each step the best preprocessing, syntactic features and sentiment lexicons by cross validation on the training set. Furthermore, it performs an evaluation of feature subset selection and a tuning SVM complexity parameter. Therefore, this system can significantly reduce the time necessary to explore the data and choose the best feature representation. MOTS-CLÉS : Analyse d'opinions, détection de polarité, langage figuratif.
Origin | Files produced by the author(s) |
---|
Loading...