French Social Media Mining: Expertise and Sentiment

Amine Abdaoui 1
1 ADVANSE - ADVanced Analytics for data SciencE
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Les médias sociaux ont changé notre manière de communiquer entre individus, au sein des organisations et des communautés. La disponibilité de ces données sociales ouvre de nouvelles opportunités pour comprendre et influencer le comportement des utilisateurs. De ce fait, la fouille des médias sociaux connait un intérêt croissant dans divers milieux scientifiques et économiques. Dans cette thèse, nous nous intéressons spécifiquement aux utilisateurs de ces réseaux et cherchons à les caractériser selon deux axes : (i) leur expertise et leur réputation et (ii) les sentiments qu’ils expriment. De manière classique, les données sociales sont souvent fouillées selon leur structure en réseau. Cependant, le contenu textuel des messages échangés peut faire émerger des connaissances complémentaires qui ne peuvent être connues via la seule analyse de la structure. Jusqu’à récemment, la majorité des travaux concernant l’analyse du contenu textuel était proposée pour l’Anglais. L’originalité de cette thèse est de développer des méthodes et des ressources basées sur le contenu pour la fouille des réseaux sociaux pour la langue Française. Dans le premier axe, nous proposons d'abord d’identifier l'expertise des utilisateurs. Pour cela, nous avons utilisé des forums qui recrutent des experts en santé pour apprendre des modèles de classification qui servent à identifier les messages postés par les experts dans n’importe quel autre forum. Nous démontrons que les modèles appris sur des forums appropriés peuvent être utilisés efficacement sur d’autres forums. Puis, dans un second temps, nous nous intéressons à la réputation des utilisateurs dans ces forums. L’idée est de rechercher les expressions de confiance et de méfiance exprimées dans les messages, de rechercher les destinataires de ces messages et d’utiliser ces informations pour en déduire la réputation des utilisateurs. Nous proposons une nouvelle mesure de réputation qui permet de pondérer le score de chaque réponse selon la réputation de son auteur. Des évaluations automatiques et manuelles ont démontré l’efficacité de l’approche. Dans le deuxième axe, nous nous sommes focalisés sur l’extraction de sentiments (polarité et émotion). Pour cela, dans un premier temps, nous avons commencé par construire un lexique de sentiments et d’émotions pour le Français que nous appelons FEEL (French Expanded Emotion Lexicon). Ce lexique est construit de manière semi-automatique en traduisant et en étendant son homologue Anglais NRC EmoLex. Nous avons ensuite comparé FEEL avec les lexiques Français de la littérature sur des benchmarks de référence. Les résultats ont montré que FEEL permet d’améliorer la classification des textes Français selon leurs polarités et émotions. Dans un deuxième temps, nous avons proposé d’évaluer de manière assez exhaustive différentes méthodes et ressources pour la classification de sentiments en Français. Les expérimentations menées ont permis de déterminer les caractéristiques utiles dans la classification de sentiments pour différents types de textes. Les systèmes appris se sont montrés particulièrement efficaces sur des benchmarks de référence. De manière générale, ces travaux ont ouvert des perspectives prometteuses sur diverses tâches d’analyse des réseaux sociaux pour la langue Française incluant: (i) combiner plusieurs sources pour transférer la connaissance sur les utilisateurs des réseaux sociaux; (ii) la fouille des réseaux sociaux en utilisant les images, les vidéos, les géolocalisations, etc. et (iii) l'analyse multilingues de sentiment.
Type de document :
Thèse
Artificial Intelligence [cs.AI]. Université de Montpellier, 2016. English
Liste complète des métadonnées

Littérature citée [159 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/tel-01507494
Contributeur : Amine Abdaoui <>
Soumis le : jeudi 13 avril 2017 - 12:01:37
Dernière modification le : jeudi 24 mai 2018 - 15:59:25

Fichier

Identifiants

  • HAL Id : tel-01507494, version 1

Collections

Citation

Amine Abdaoui. French Social Media Mining: Expertise and Sentiment. Artificial Intelligence [cs.AI]. Université de Montpellier, 2016. English. 〈tel-01507494〉

Partager

Métriques

Consultations de la notice

678

Téléchargements de fichiers

649