MR-Part : Minimizing Data Transfers Between Mappers and Reducers in MapReduce

Miguel Liroz-Gistau 1 Reza Akbarinia 1 Divyakant Agrawal 2 Esther Pacitti 1 Patrick Valduriez 1, 3
1 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : La réduction du transfert des données dans la phase "Shuf?e" de MapReduce est très importante, car elle augmente la localité des données, et diminue le coût total des exécutions des jobs MapReduce. Dans la littérature, plusieurs optimisations ont été proposées pour réduire le transfert de données entre les mappers et les reducers. Néanmoins, toutes ces approches sont limitées par la façon dont les clé-valeurs intermédiaires sont réparties sur les mappers. Dans cet article, nous proposons une technique qui repartitionne les tuples dans le ?chier d'entrée, avec l'objectif d'optimiser la distribution des clés-valeurs sur les mappers. Notre approche détecte les relations entre les tuples d'entrée et les clé-valeurs intermédiaires en surveillant l'exécution d'un ensemble de tâches MapReduce qui est représentatif du workload. Puis, à partir des relations détectées, il affecte les tuples d'entrée aux mappers, et augmente la localité des données lors des futures exécutions. Nous avons implémenté notre approche dans Hadoop, et l'avons évaluée par expérimentation dans Grid5000. Les résultats montrent une grande réduction dans le transfert de données pendant la phase "Shuf?e" par rapport à Hadoop.
Type de document :
Communication dans un congrès
BDA: Bases de Données Avancées, Oct 2013, Nantes, France. 29e journées Bases de Donnees Avancées, 2013, 〈http://bda2013.univ-nantes.fr/〉
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00879531
Contributeur : Miguel Liroz-Gistau <>
Soumis le : lundi 18 novembre 2013 - 10:45:27
Dernière modification le : jeudi 24 mai 2018 - 15:59:21
Document(s) archivé(s) le : mercredi 19 février 2014 - 03:05:18

Fichier

bda_2013-paper.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-00879531, version 1

Collections

Citation

Miguel Liroz-Gistau, Reza Akbarinia, Divyakant Agrawal, Esther Pacitti, Patrick Valduriez. MR-Part : Minimizing Data Transfers Between Mappers and Reducers in MapReduce. BDA: Bases de Données Avancées, Oct 2013, Nantes, France. 29e journées Bases de Donnees Avancées, 2013, 〈http://bda2013.univ-nantes.fr/〉. 〈lirmm-00879531〉

Partager

Métriques

Consultations de la notice

520

Téléchargements de fichiers

509