Techniques d’apprentissage pour le contrôle adaptatif multi-niveaux du calcul distribué

Maxime Mirka

Résumé

The rise of machine learning techniques and algorithms and their use in a large variety of domains show often surprising capabilities -- in the interpretation of input data and the ability to build relevant abstract representations (e.g. supervised learning), but also in the dynamic control of complex systems (e.g. reinforcement learning). Optimizing the energy efficiency of computing systems has become a major issue. From hardware design to software control, different levers exist to act on the execution of calculations. We consider in this thesis the optimization of parallel computing, running on complex architectures, from multicore processors to computing clusters. These systems present a large number of design and control parameters, giving rise to a number of combinations often too large to be considered exhaustively. Thus, this thesis aims at using recent machine learning techniques, based on neural networks, to build solutions for the control and design of computing systems. These techniques can consider a significant set of parameters in order to propose optimal solutions. The proposed techniques are intended to be multi-level and can therefore be applied to embedded systems or various sub-components but also at the scale of a distributed system, such as a computing cluster. Promising solutions are proposed along two distinct research axes. The first axis addresses the dynamic control of parallel computing. It deals with the real-time optimization of the energy efficiency of a system running an application parallelized with OpenMP. Among others, a control based on reinforcement learning is proposed. The second axis concerns the design of optimized communication networks. Indeed, communication networks represent a significant part of the energy consumption of computing systems. Thus, we propose a design tool based on generative AI, for the generation of optimized networks according to user criteria such as energy efficiency.

L’essor des techniques et algorithmes d’apprentissage (i.e. Machine Learning) et leur utilisation dans des domaines de plus en plus variés montrent des capacités souvent surprenantes -- dans l’interprétation des données d’entrée et la capacité de construire des représentations abstraites pertinentes (e.g. apprentissage supervisé), mais aussi dans le contrôle dynamique de systèmes complexes (e.g. apprentissage par renforcement). L'optimisation de l'efficacité énergétique des systèmes de calcul est devenue un enjeu majeur. De la conception matérielle au contrôle logiciel, différents leviers existent pour agir sur l'exécution de calculs. Nous considérons dans cette thèse l'optimisation du calcul parallèle, s'exécutant sur des architectures complexes, du processeur multicœur au cluster de calcul. Ces systèmes possèdent un nombre de paramètres de conception et de contrôle important, donnant lieu à un nombre de combinaisons souvent trop large pour pouvoir être considérées de façon exhaustive. Ainsi, cette thèse a pour objectif de s'appuyer sur les techniques d'apprentissage automatique récentes, basées sur les réseaux de neurones, pour construire des solutions de contrôle et de conception de systèmes de calcul. Ces techniques peuvent considérer un ensemble significatif de paramètres afin de proposer des solutions optimales. Les techniques proposées ont vocation à être multi-niveaux et pourront à ce titre être appliquées à l’échelle d’un système embarqué ou de ses divers sous-composants mais aussi à l’échelle d'un système distribué, comme par exemple un cluster de calcul. Des solutions prometteuses sont proposées selon deux axes de recherche distincts. Le premier axe s'adresse au contrôle dynamique du calcul parallèle. Il est question de l'optimisation en temps réel de l'efficacité énergétique d'un système exécutant une application parallélisée avec OpenMP, à l'aide, entre autres, d'un apprentissage par renforcement. Le deuxième axe concerne la conception de réseaux de communication optimisés. En effet, les réseaux de communication représentent une part non négligeable de la consommation énergétique des systèmes de calcul. Ainsi nous proposons un outil d'aide à la conception basé sur une IA générative, pour la génération de réseaux optimisés selon des critères utilisateurs tels que l'efficacité énergétique.

Machine learning techniques for multi-level and adaptive control in distributed compute systems

Techniques d’apprentissage pour le contrôle adaptatif multi-niveaux du calcul distribué

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager