Efficient Scheduling of Scientific Workflows using Hot Metadata in a Multisite Cloud
Résumé
Large-scale scientific applications are often expressed as scientific
workflows (SWfs) that help defining data processing jobs and dependencies
between jobs’ activities. Several SWfs have huge storage
and computation requirements, and so they need to be processed
in multiple (cloud-federated) datacenters. It has been shown that
efficient metadata handling plays a key role in the performance of
computing systems. However, most of this evidence concern only
single-site, HPC systems to date. In addition, the efficient scheduling
of tasks among different data centers is critical to the SWf
execution. In this paper, we present a hybrid distributed model and
architecture, using hot metadata (frequently accessed metadata)
for efficient SWf scheduling in a multisite cloud. We couple our
model with a scientific workflow management system (SWfMS)
to validate and tune its applicability to different real-life scientific
workflows with different scheduling algorithms. We show that the
combination of efficient management of hot metadata and scheduling
algorithms improves the performance of SWfMS, reducing the
execution time of highly parallel jobs up to 64.1% and that of the
whole scientific workflows up to 37.5%, by avoiding unnecessary
cold metadata operations.
Les applications scientifiques à grande échelle sont souvent exprimées sous forme de workflows scientifiques
(SWfs) qui aident à définir les jobs de traitement des données et les dépendances entre les activités des jobs.
Certains SWfs nécessitent une très grande quantité de stockage et de calcul, ce qui peut être obtenu en exploitant
plusieurs data centers dans un cloud. Dans ce contexte, la gestion des métadonnées et l’ordonnancement des
tâches entre différents data centers deviennent critiques pour l’exécution efficace de SWf. Dans cet article, nous
proposons une architecture et un modèle distribués hybrides, en utilisant les métadonnées chaudes (fréquemment
consultées) pour l’ordonnancement efficace de SWf dans un cloud multisite. Nous utilisons notre modèle dans
un système de gestion de workflows scientifiques (SWfMS) pour valider et régler son applicabilité à différents
workflows scientifiques réels avec différents algorithmes d’ordonnancement. Nous montrons que la combinaison
d'une gestion efficace des métadonnées chaudes et des algorithmes d’ordonnancement améliore les performances
du SWfMS. En évitant les opérations inutiles de métadonnées froides, le temps d'exécution des jobs qui
s’exécutent en parallèle est réduit jusqu'à 64,1% et celui de l'ensemble des workflows scientifiques jusqu'à
37,5%.
Origine | Fichiers produits par l'(les) auteur(s) |
---|
Loading...