Supporting User Steering In Large-Scale Workflows With Provenance Data - Archive ouverte HAL Access content directly
Theses Year : 2019

Supporting User Steering In Large-Scale Workflows With Provenance Data

Support des actions de pilotage dans les workflows à grande échelle avec données de provenance

(1, 2, 3)
1
2
3

Abstract

Computational Science and Engineering (CSE) workflows are large-scale, require High Performance Computing (HPC) execution, and have the exploratory nature of science. During the long run, which often lasts for hours or days, users need to steer the workflow by dynamically analyzing it and adapting it to improve the quality of results or to reduce the execution time. However, to steer the workflow, users typically perform several interactions (called user steering actions), which need to be tracked. Otherwise, users find it harder to understand how and what needs to be steered, they can steer in a misleading way, it can be difficult to explain the results that were consequences of their actions, and it can be impossible to reproduce the results. This thesis addresses this problem by proposing an approach that defines the fundamental concepts for user steering action; introduces the notion of provenance of steering actions; and contemplates a W3C PROV-compliant data diagram to model steering action data with provenance. Also, the approach presents system design principles to enable the management of steering action data by capturing, explicitly relating the actions to the rest of the workflow data, and storing these data efficiently. Two instances of this approach were designed and built: one is a lightweight tool to be plugged into parallel scripts and the other is to be used within a Parallel Workflow Management System, which are the two typical ways to conduct CSE experiments in HPC. Using real use cases in the Oil and Gas industry, the experiments show that the proposed approach enables users to understand how their actions directly affect the workflow results at runtime and that the system design principles were essential to add negligible overhead to the HPC workflows.
Les workflows en Computational Science and Engineering (CSE) sont à grande échelle, nécessitent de hautes performances en HPC, et ont le caractère exploratoire de la science. Pendant l'exécution, qui dure souvent des heures ou des jours, l'utilisateur doit diriger le workflow en l'analysant dynamiquement et en l'adaptant pour en améliorer la qualité des résultats ou pour réduire le temps d'exécution. Toutefois, pour piloter le workflow, les utilisateurs effectuent généralement plusieurs interactions (appelées actions de pilotage de l'utilisateur), qui ont besoin d'être suivies. Sinon, les utilisateurs ont des difficultés à comprendre comment et ce qu'il faut faire. Et il peut être difficile d'expliquer les résultats qui étaient les conséquences de leurs actions, et il peut être impossible de reproduire les résultats. Cette thèse aborde ce problème en proposant une approche qui définit les concepts fondamentaux pour l'action de pilotage de l'utilisateur ; introduit la notion de provenance d'actions de pilotage ; et propose un diagramme de données conforme au W3C PROV. De plus, on présente le système pour permettre la gestion des données d'action de pilotage par la capture, établir un lien explicite entre les actions et le reste des données du workflow, et stocker celles-ci de manière efficace. Deux exemples de cette approche ont été conçus et construits : l'un est un outil léger à brancher dans des scripts parallèles et l'autre est à utiliser dans un système de gestion de workflow parallèle, qui sont les deux façons typiques de mener des expériences en CSE dans le domaine du calcul haute performance. Avec des cas d'utilisation réels dans l'industrie pétrolière et gazière, les expériences montrent que l'approche proposée permet aux utilisateurs de comprendre comment leurs actions affectent directement les résultats du workflow au moment de l'exécution et que les principes de conception sont essentiels pour obtenir un surcout négligeable.
Fichier principal
Vignette du fichier
tese_tex_Jan16-02.pdf (8.1 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

tel-02418022 , version 1 (18-12-2019)
tel-02418022 , version 2 (20-12-2019)
tel-02418022 , version 3 (17-01-2020)

Identifiers

  • HAL Id : tel-02418022 , version 3

Cite

Renan Souza. Supporting User Steering In Large-Scale Workflows With Provenance Data. Databases [cs.DB]. UFRJ, Rio de Janeiro, 2019. English. ⟨NNT : ⟩. ⟨tel-02418022v3⟩
211 View
609 Download

Share

Gmail Facebook Twitter LinkedIn More