A la recherche des tweets porteurs d'informations journalistiques

Benjamin Rosoor 1 Laurent Sebag 1 Sandra Bringay 2 Mathieu Roche 3
2 TATOO - Fouille de données environnementales
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
3 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Le succès des réseaux sociaux ne fait plus aucun doute et leurs taux d'activité ont atteint des niveaux sans précédent. Twitter qui est l'un de ces réseaux, permet aux internautes de " microblogguer ", c'est-à-dire d'envoyer des messages courts, des " tweets ", de moins de 140 caractères et de lire les messages des autres utilisateurs. En 2010, plus de 6 millions de tweets sont produits chaque jour. Une des applications associées à ces données consiste à détecter automatiquement et à analyser en temps réel des sujets émergents et/ou des histoires qui font le "buzz" sur le réseau. Pour les journalistes et autres analystes, détecter ces tendan-ces le plus tôt possible puis suivre leur évolution sont des tâches cruciales. Par exemple, Kostkova et al. (2010) montrent l'intérêt de suivre les messages concernant la grippe pour un système d'alerte efficace de la maladie et une meilleure compréhension de son évolution. Récemment, Boyd et al. (2010) ont travaillé sur l'activité appelée " retwit " qui consiste à faire suivre les messages d'autres utilisateurs signifiant qu'ils sont appréciés, qu'ils apportent une information récente, inédite ou encore insolite. Le système LANGMA développé par la société " Web Report " en collaboration avec le LIRMM est dans la lignée de ces méthodes automatiques. Il vise à fournir un support pour produire puis vérifier des informations (tweets) sur les catastrophes naturelles qui, si elles sont publiées par un site public, seront qualifiées de " scoop ". Cet outil se rapproche de la méthode proposée par Sakaki et al. (2010) qui détecte les tremblements de terre au Japon via les tweets et dont est issu le site Toretter (http://toretter.com/). Notre approche fondée sur des méthodes de fouille de textes est décrite dans la section suivante. Les résultats expérimen-taux obtenus à partir de données réelles sont synthétisés en section 3.
Complete list of metadatas

Cited literature [6 references]  Display  Hide  Download

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00588594
Contributor : Mathieu Roche <>
Submitted on : Monday, September 23, 2019 - 4:24:12 PM
Last modification on : Monday, September 23, 2019 - 4:25:13 PM
Long-term archiving on: Sunday, February 9, 2020 - 1:23:15 PM

File

1000961.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : lirmm-00588594, version 1

Collections

Citation

Benjamin Rosoor, Laurent Sebag, Sandra Bringay, Mathieu Roche. A la recherche des tweets porteurs d'informations journalistiques. EGC: Extraction et Gestion des Connaissances, Jan 2011, Brest, France. pp.283-286. ⟨lirmm-00588594⟩

Share

Metrics

Record views

236

Files downloads

7