Mining Maximally Informative k-Itemsets in Massively Distributed Environments

Saber Salah 1 Reza Akbarinia 1 Florent Masseglia 1
1 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Abstract : The discovery of informative itemsets is a fundamental building block in data analytics and information retrieval. While the problem has been widely studied, only few solutions scale. This is particularly the case when i) the data set is massive, calling for large-scale distribution, and/or ii) the length k of the informative itemset to be discovered is high. In this paper, we address the problem of parallel mining of maximally informative k-itemsets (miki) based on joint entropy. We propose PHIKS (Parallel Highly Informative K-ItemSet) a highly scalable, parallel miki mining algorithm. PHIKS renders the mining process of large scale databases (up to terabytes of data) succinct and effective. Its mining process is made up of only two efficient parallel jobs. With PHIKS, we provide a set of significant optimizations for calculating the joint entropies of miki having different sizes, which drastically reduces the execution time of the mining process. PHIKS has been extensively evaluated using massive real-world data sets. Our experimental results confirm the effectiveness of our proposal by the significant scale-up obtained with high itemsets length and over very large databases. La découverte d'itemsets informatifs est un élément fondamen-tal dans l'analyse de donnés et la recherche d'information. Bien que le problème a été largement étudié, il y a peu de solutions qui passent à l'échelle. Ceci est particulièrement le cas lorsque i) les données sont de très grane taille, ce qui demande une distribution à grande échelle, et / ou ii) la longueur k des itemsets informatifs à découvrir est élevée. Dans cet article, nous abordons le problème de la fouille des k iems les plus informatifs (appelé miki) qui est calculé en considérant l'entropie conjointe des items.
Type de document :
Communication dans un congrès
BDA: Bases de Données Avancées, Nov 2016, Poitiers, France. 32ème Conférence sur la Gestion de Données - Principes, Technologies et Applications, 2016, 〈https://bda2016.ensma.fr〉
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01411190
Contributeur : Reza Akbarinia <>
Soumis le : mercredi 7 décembre 2016 - 10:54:39
Dernière modification le : jeudi 11 janvier 2018 - 17:01:53
Document(s) archivé(s) le : mardi 21 mars 2017 - 01:09:59

Fichiers

bda_short_paper.pdf
Fichiers produits par l'(les) auteur(s)

Licence


Distributed under a Creative Commons Paternité - Pas d'utilisation commerciale - Pas de modification 4.0 International License

Identifiants

  • HAL Id : lirmm-01411190, version 1

Citation

Saber Salah, Reza Akbarinia, Florent Masseglia. Mining Maximally Informative k-Itemsets in Massively Distributed Environments. BDA: Bases de Données Avancées, Nov 2016, Poitiers, France. 32ème Conférence sur la Gestion de Données - Principes, Technologies et Applications, 2016, 〈https://bda2016.ensma.fr〉. 〈lirmm-01411190〉

Partager

Métriques

Consultations de la notice

202

Téléchargements de fichiers

167