Control-based runtime management of HPC systems with support for reproducible experiments

Quentin Guilloteau

Résumé

High-Performance Computing (HPC) systems have become increasingly more complex, and their performance and power consumption make them less predictable. This unpredictability requires cautious runtime management to guarantee an acceptable Quality-of-Service to the end users. Such a regulation problem arises in the context of the computing grid middleware CiGri that aims at harvesting the idle computing resources of a set of cluster by injection low priority jobs. A too aggressive harvesting strategy can lead to the degradation of the performance for all the users of the clusters, while a too shy harvesting will leave resources idle and thus lose computing power. There is thus a tradeoff between the amount of resources that can be harvested and the resulting degradation of users jobs, which can evolve at runtime based on Service Level Agreements and the current load of the system. We claim that such regulation challenges can be addressed with tools from Autonomic Computing, and in particular when coupled with Control Theory. This thesis investigates several regulation problems in the context of CiGri with such tools. We will focus on regulating the harvesting based on the load of a shared distributed file-system, and improving the overall usage of the computing resources. We will also evaluate and compare the reusability of the proposed control-based solutions in the context of HPC systems. The experiments done in this thesis also led us to investigate new tools and techniques to improve the cost and reproducibility of the experiments. We will present a tool named NixOS-compose able to generate and deploy reproducible distributed software environments. We will also investigate techniques to reduce the number of machines needed to deploy experiments on grid or cluster middlewares, such as CiGri, while ensuring an acceptable level of realism for the final deployed system.

Les systèmes de calcul haute performance (HPC) sont devenus de plus en plus complexes, et leurs performances ainsi que leur consommation d'énergie les rend de moins en moins prévisibles. Cette imprévisibilité nécessite une gestion en ligne et prudente, afin garantir une qualité de service acceptable aux utilisateurs. Un tel problème de régulation se pose dans le contexte de l'intergiciel de grille de calcul CiGri qui vise à récolter les ressources inutilisées d'un ensemble de grappes via l'injection de tâches faiblement prioritaires. Une stratégie de récolte trop agressive peut conduire à la dégradation des performances pour tous les utilisateurs des grappes, tandis qu'une récolte trop timide laissera des ressources inutilisées et donc une perte de puissance de calcul. Il existe ainsi un compromis entre la quantité de ressources pouvant être récoltées et la dégradation des performances pour les tâches des utilisateurs qui en résulte. Ce compromis peut évoluer au cours de l'exécution en fonction des accords de niveau de service et de la charge du système. Nous affirmons que de tels défis de régulation peuvent être résolus avec des outils issus de l'informatique autonomique, et en particulier lorsqu'ils sont couplés à la théorie du contrôle. Cette thèse étudie plusieurs problèmes de régulation dans le contexte de CiGri avec de tels outils. Nous nous concentrerons sur la régulation de la récolte de ressources libres en fonction de la charge d'un système de fichiers distribué partagé et sur l'amélioration de l'utilisation globale des ressources de calcul. Nous évaluerons et comparerons également la réutilisabilité des solutions proposées dans le contexte des systèmes HPC. Les expériences réalisées dans cette thèse nous ont par ailleurs amené à rechercher de nouveaux outils et techniques pour améliorer le coût et la reproductibilité des expériences. Nous présenterons un outil nommé NixOS-compose capable de générer et de déployer des environnements logiciels distribués reproductibles. Nous étudierons de plus des techniques permettant de réduire le nombre de machines nécessaires pour expérimenter sur des intergiciels de grappe, tels que CiGri, tout en garantissant un niveau de réalisme acceptable pour le système final déployé.

Control-based runtime management of HPC systems with support for reproducible experiments

Une approche autonomique à la régulation en ligne de systèmes HPC, avec un support pour la reproductibilité des expériences

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager