A la recherche des tweets porteurs d'informations journalistiques

Benjamin Rosoor 1 Laurent Sebag 1 Sandra Bringay 2 Mathieu Roche 3
2 TATOO - Fouille de données environnementales
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
3 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Le succès des réseaux sociaux ne fait plus aucun doute et leurs taux d'activité ont atteint des niveaux sans précédent. Twitter qui est l'un de ces réseaux, permet aux internautes de " microblogguer ", c'est-à-dire d'envoyer des messages courts, des " tweets ", de moins de 140 caractères et de lire les messages des autres utilisateurs. En 2010, plus de 6 millions de tweets sont produits chaque jour. Une des applications associées à ces données consiste à détecter automatiquement et à analyser en temps réel des sujets émergents et/ou des histoires qui font le "buzz" sur le réseau. Pour les journalistes et autres analystes, détecter ces tendan-ces le plus tôt possible puis suivre leur évolution sont des tâches cruciales. Par exemple, Kostkova et al. (2010) montrent l'intérêt de suivre les messages concernant la grippe pour un système d'alerte efficace de la maladie et une meilleure compréhension de son évolution. Récemment, Boyd et al. (2010) ont travaillé sur l'activité appelée " retwit " qui consiste à faire suivre les messages d'autres utilisateurs signifiant qu'ils sont appréciés, qu'ils apportent une information récente, inédite ou encore insolite. Le système LANGMA développé par la société " Web Report " en collaboration avec le LIRMM est dans la lignée de ces méthodes automatiques. Il vise à fournir un support pour produire puis vérifier des informations (tweets) sur les catastrophes naturelles qui, si elles sont publiées par un site public, seront qualifiées de " scoop ". Cet outil se rapproche de la méthode proposée par Sakaki et al. (2010) qui détecte les tremblements de terre au Japon via les tweets et dont est issu le site Toretter (http://toretter.com/). Notre approche fondée sur des méthodes de fouille de textes est décrite dans la section suivante. Les résultats expérimen-taux obtenus à partir de données réelles sont synthétisés en section 3.
Type de document :
Communication dans un congrès
EGC'11: Extraction et la Gestion des Connaissances - Démonstrations, Brest, France. pp.283-286, 2011
Liste complète des métadonnées

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00588594
Contributeur : Mathieu Roche <>
Soumis le : dimanche 24 avril 2011 - 18:33:19
Dernière modification le : jeudi 11 janvier 2018 - 06:26:53

Identifiants

  • HAL Id : lirmm-00588594, version 1

Collections

Citation

Benjamin Rosoor, Laurent Sebag, Sandra Bringay, Mathieu Roche. A la recherche des tweets porteurs d'informations journalistiques. EGC'11: Extraction et la Gestion des Connaissances - Démonstrations, Brest, France. pp.283-286, 2011. 〈lirmm-00588594〉

Partager

Métriques

Consultations de la notice

122