Análise de dados científicos sobre múltiplas fontes de dados ao longo da execução de simulações computacionais

Vitor Silva

Résumé

Large-scale computational simulations are characterized by the chaining of programs that execute increasingly complex computational models. Much of the data produced by these programs need to be analyzed by scientific domain users to validate their scientific hypotheses. However, it is not trivial since other programs must be developed to access and to capture these scientific data. In many cases, users also need to relate data produced by different simulation programs. This thesis proposes an approach that monitors, debugs, and analyzes the data element flow produced by different simulation programs. We also propose a component-based architecture, named as ARMFUL, to extract and relate scientific data generated in these several simulation steps considering a dataflow abstraction and techniques for scientific data capture. ARMFUL’s components can be instantiated on a scientific workflow system (e.g., A-Chiron) or a library of components (e.g., DfAnalyzer). We evaluate these instances using simulations in high performance computing environments. In our experimental results, our approach introduced a negligible overhead of the simulation execution time, and we perform complex queries to the scientific data.

Les simulations numériques à grande échelle se caractérisent par l'enchaînement de programmes qui exécutent des modèles informatiques de plus en plus complexes. Une grande partie des données produites par ces programmes doivent être analysées par les utilisateurs du domaine scientifique pour valider leurs hypothèses scientifiques. Cependant, ce n'est pas anodin puisque d'autres programmes doivent être développés pour accéder à ces données scientifiques et les saisir. Dans de nombreux cas, les utilisateurs ont également besoin de relier les données produites par différents programmes de simulation. Cette thèse propose une approche qui surveille, débogue et analyse le flux d'éléments de données produits par différents programmes de simulation. Nous proposons également une architecture basée sur les composants, appelée ARMFUL, pour extraire et relier les données scientifiques générées dans ces différentes étapes de simulation, en tenant compte d'un flux de données abstraites et des techniques de capture de données scientifiques. Les composants de ARMFUL peuvent être instanciés sur un système de flux de travail scientifique (par exemple, A-Chiron) ou une bibliothèque de composants (par exemple, DfAnalyzer). Nous évaluons ces cas à l'aide de simulations dans des environnements informatiques à haute performance. Dans nos résultats expérimentaux, notre approche a introduit une surcharge négligeable du temps d'exécution de la simulation, et nous effectuons des requêtes complexes aux données scientifiques.

Simulações computacionais em larga escala são caracterizadas pelo encadeamento de programas que executam modelos computacionais cada vez mais complexos. Muitos dos dados produzidos por esses programas precisam ser analisados pelos usuários do domínio científico a fim de validar as suas hipóteses científicas. Entretanto, esta não é uma tarefa trivial, pois outros programas precisam ser desenvolvidos para acessar e capturar esses dados científicos. Em muitos casos, os usuários também precisam relacionar dados produzidos por diferentes programas de simulação. Esta tese propõe uma abordagem capaz de monitorar, depurar e analisar o fluxo de elementos de dados produzido pelos diferentes programas de simulação. Propomos também uma arquitetura baseada em componentes, nomeada como ARMFUL, que permite extrair e relacionar dados científicos produzidos nessas diversas etapas por meio da abstração de fluxo de dados e de técnicas de captura de dados científicos. Os seus componentes podem ser instanciados em um sistema de workflows científicos (A-Chiron) ou uma biblioteca de componentes (DfAnalyzer). Avaliamos essas instâncias utilizando simulações em ambientes de processamento de alto desempenho. Os resultados experimentais mostram que a nossa abordagem introduz uma sobrecarga negligenciável em relação ao tempo de execução da simulação, além de permitir o processamento de consultas aos dados científicos.

Analysis of raw data from multiple data sources during the execution of computational simulations

Analyse de données brutes provenant de multiples sources de données pendant l'exécution de simulations numériques

Análise de dados científicos sobre múltiplas fontes de dados ao longo da execução de simulações computacionais

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager