MR-Part : Minimizing Data Transfers Between Mappers and Reducers in MapReduce
Résumé
La réduction du transfert des données dans la phase "Shuf?e" de MapReduce est très importante, car elle augmente la localité des données, et diminue le coût total des exécutions des jobs MapReduce. Dans la littérature, plusieurs optimisations ont été proposées pour réduire le transfert de données entre les mappers et les reducers. Néanmoins, toutes ces approches sont limitées par la façon dont les clé-valeurs intermédiaires sont réparties sur les mappers. Dans cet article, nous proposons une technique qui repartitionne les tuples dans le ?chier d'entrée, avec l'objectif d'optimiser la distribution des clés-valeurs sur les mappers. Notre approche détecte les relations entre les tuples d'entrée et les clé-valeurs intermédiaires en surveillant l'exécution d'un ensemble de tâches MapReduce qui est représentatif du workload. Puis, à partir des relations détectées, il affecte les tuples d'entrée aux mappers, et augmente la localité des données lors des futures exécutions. Nous avons implémenté notre approche dans Hadoop, et l'avons évaluée par expérimentation dans Grid5000. Les résultats montrent une grande réduction dans le transfert de données pendant la phase "Shuf?e" par rapport à Hadoop.
Origine | Fichiers produits par l'(les) auteur(s) |
---|
Loading...