Supporting User Steering In Large-Scale Workflows With Provenance Data
Support des actions de pilotage dans les workflows à grande échelle avec données de provenance
Abstract
Computational Science and Engineering (CSE) workflows are large-scale, require
High Performance Computing (HPC) execution, and have the exploratory nature of
science.
During the long run, which often lasts for hours or days, users need to steer
the workflow by dynamically analyzing it and adapting it to improve the quality
of results or to reduce the execution time. However, to steer the workflow, users
typically perform several interactions (called user steering actions), which need to
be tracked. Otherwise, users find it harder to understand how and what needs to be
steered, they can steer in a misleading way, it can be difficult to explain the results
that were consequences of their actions, and it can be impossible to reproduce the
results. This thesis addresses this problem by proposing an approach that defines the
fundamental concepts for user steering action; introduces the notion of provenance
of steering actions; and contemplates a W3C PROV-compliant data diagram to
model steering action data with provenance. Also, the approach presents system
design principles to enable the management of steering action data by capturing,
explicitly relating the actions to the rest of the workflow data, and storing these
data efficiently. Two instances of this approach were designed and built: one is
a lightweight tool to be plugged into parallel scripts and the other is to be used
within a Parallel Workflow Management System, which are the two typical ways to
conduct CSE experiments in HPC. Using real use cases in the Oil and Gas industry,
the experiments show that the proposed approach enables users to understand how
their actions directly affect the workflow results at runtime and that the system
design principles were essential to add negligible overhead to the HPC workflows.
Les workflows en Computational Science and Engineering (CSE) sont à grande échelle, nécessitent de hautes performances en HPC, et ont le caractère exploratoire de la science. Pendant l'exécution, qui dure souvent des heures ou des jours, l'utilisateur doit diriger le workflow en l'analysant dynamiquement et en l'adaptant pour en améliorer la qualité des résultats ou pour réduire le temps d'exécution. Toutefois, pour piloter le workflow, les utilisateurs
effectuent généralement plusieurs interactions (appelées actions de pilotage de l'utilisateur), qui ont besoin d'être
suivies. Sinon, les utilisateurs ont des difficultés à comprendre comment et ce qu'il faut faire. Et il peut être difficile d'expliquer les résultats qui étaient les conséquences de leurs actions, et il peut être impossible de reproduire les résultats.
Cette thèse aborde ce problème en proposant une approche qui définit les concepts fondamentaux pour l'action de pilotage de l'utilisateur ; introduit la notion de provenance d'actions de pilotage ; et propose un diagramme de données conforme au W3C PROV. De plus, on présente le système pour permettre la gestion des données d'action de pilotage par la capture, établir un lien explicite entre les actions et le reste des données du workflow, et stocker celles-ci
de manière efficace. Deux exemples de cette approche ont été conçus et construits : l'un est un outil léger à brancher dans des scripts parallèles et l'autre est à utiliser dans un système de gestion de workflow parallèle, qui sont les deux façons typiques de mener des expériences en CSE dans le domaine du calcul haute performance. Avec des cas d'utilisation réels dans l'industrie pétrolière et gazière, les expériences montrent que l'approche proposée permet aux utilisateurs de comprendre comment leurs actions affectent directement les résultats du workflow au moment de l'exécution et que les principes de conception sont essentiels pour obtenir un surcout négligeable.
Origin | Files produced by the author(s) |
---|
Loading...