Efficient Scheduling of Scientific Workflows using Hot Metadata in a Multisite Cloud - Archive ouverte HAL Access content directly
Conference Papers Year : 2017

Efficient Scheduling of Scientific Workflows using Hot Metadata in a Multisite Cloud

(1) , (2) , (1) , (2) , (1) , (2) , (3)
1
2
3
Ji Liu
Esther Pacitti
Patrick Valduriez
Gabriel Antoniu

Abstract

Large-scale scientific applications are often expressed as scientific workflows (SWfs) that help defining data processing jobs and dependencies between jobs’ activities. Several SWfs have huge storage and computation requirements, and so they need to be processed in multiple (cloud-federated) datacenters. It has been shown that efficient metadata handling plays a key role in the performance of computing systems. However, most of this evidence concern only single-site, HPC systems to date. In addition, the efficient scheduling of tasks among different data centers is critical to the SWf execution. In this paper, we present a hybrid distributed model and architecture, using hot metadata (frequently accessed metadata) for efficient SWf scheduling in a multisite cloud. We couple our model with a scientific workflow management system (SWfMS) to validate and tune its applicability to different real-life scientific workflows with different scheduling algorithms. We show that the combination of efficient management of hot metadata and scheduling algorithms improves the performance of SWfMS, reducing the execution time of highly parallel jobs up to 64.1% and that of the whole scientific workflows up to 37.5%, by avoiding unnecessary cold metadata operations.
Les applications scientifiques à grande échelle sont souvent exprimées sous forme de workflows scientifiques (SWfs) qui aident à définir les jobs de traitement des données et les dépendances entre les activités des jobs. Certains SWfs nécessitent une très grande quantité de stockage et de calcul, ce qui peut être obtenu en exploitant plusieurs data centers dans un cloud. Dans ce contexte, la gestion des métadonnées et l’ordonnancement des tâches entre différents data centers deviennent critiques pour l’exécution efficace de SWf. Dans cet article, nous proposons une architecture et un modèle distribués hybrides, en utilisant les métadonnées chaudes (fréquemment consultées) pour l’ordonnancement efficace de SWf dans un cloud multisite. Nous utilisons notre modèle dans un système de gestion de workflows scientifiques (SWfMS) pour valider et régler son applicabilité à différents workflows scientifiques réels avec différents algorithmes d’ordonnancement. Nous montrons que la combinaison d'une gestion efficace des métadonnées chaudes et des algorithmes d’ordonnancement améliore les performances du SWfMS. En évitant les opérations inutiles de métadonnées froides, le temps d'exécution des jobs qui s’exécutent en parallèle est réduit jusqu'à 64,1% et celui de l'ensemble des workflows scientifiques jusqu'à 37,5%.
Fichier principal
Vignette du fichier
BDA2017.pdf (1.12 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

lirmm-01620231 , version 1 (20-10-2017)
lirmm-01620231 , version 2 (21-11-2017)

Identifiers

  • HAL Id : lirmm-01620231 , version 2

Cite

Ji Liu, Luis Pineda-Morales, Esther Pacitti, Alexandru Costan, Patrick Valduriez, et al.. Efficient Scheduling of Scientific Workflows using Hot Metadata in a Multisite Cloud. BDA: Gestion de Données — Principes, Technologies et Applications, Nov 2017, Nancy, France. ⟨lirmm-01620231v2⟩
346 View
490 Download

Share

Gmail Facebook Twitter LinkedIn More