Déploiement de la plateforme de traitement des données phénotypage haut débit 4P sur l'infrastructure France Grilles. - Département Recherches Subatomiques Accéder directement au contenu
Poster De Conférence Année : 2019

Deployment of 4P, the high-speed phenotyping data processing platform on the France Grilles infrastructure.

Déploiement de la plateforme de traitement des données phénotypage haut débit 4P sur l'infrastructure France Grilles.

Philippe Burger
Romain Chapuis
Anthony Tong
  • Fonction : Auteur
Gallian Colombeau
  • Fonction : Auteur

Résumé

High throughput phenotyping consists of measuring the characteristics of plants on different time and organisation scales. The PHENOME-EMPHASIS [1] project, associating INRAE, Arvalis and Terres-Inovia institutes, aims to develop broadband phenotyping infrastructures at national level. A particular effort has been made in recent years on the development of data acquisition systems (in particular drone and phenomobile) allowing the use of different types of sensors (high-resolution RGB, multispectral and thermal infrared cameras, LIDARs). All of these sensors generate a large volume of images, which must be processed, stored and archived. Prototype processing modules have been created within the UMT CAPTE [2] responsible for the development of high-speed field phenotyping methods and tools. They have been industrialised and integrated into the 4P data processing platform (Plant Phenotyping Processing Platform). Some modules incorporate proprietary software (Matlab, Photoscan), others require specific software libraries and can be run on heterogeneous environments (Windows, Linux). Portability is therefore a crucial element which is ensured by the encapsulation of the modules in Docker containers.These modules can be chained into workflows that users create according to their needs, using interactive tools available from a web interface developed in Java.A distributed computing architecture has been set up to execute these workflows: it is based on the Cromwell processing engine [3] which is responsible for executing the various modules sequentially or in parallel.Cromwell takes care of the sequencing of the modules but does not allow the processing to be distributed to several machines. The Docker Swarm tool allows the execution of Docker containers to be distributed to several machines in a cluster. This mode is based on one or more managers who will centralise the requests and distribute them to different nodes (machines on which the Docker service is installed).As far as data persistence is concerned, the raw data and processing outputs are stored on a distributed architecture based on iRODS technology [4].The 4P platform is connected to the PHIS (Phenotyping Hybrid Information System) information system [5]. The objective of this information system is to store and organise the data produced within the framework of the PHENOME-EMPHASIS project by applying the FAIR (Findable, Accessible, Interoperable and Reusable) principles. This connection is made dynamically through the use of web services.The 4P platform is fully integrated into the France Grilles infrastructure [6]. It is a distributed infrastructure for the calculation and storage of scientific data providing various services to users, in particular :- the FG-CLOUD cloud service that allows the deployment of virtual machines on demand ;- the FG-IRODS service, which provides highly available and customisable storage;- the FG-DIRAC service, which enables grid computing.For the deployment of the 4P platform, we relied on the FG-CLOUD service for the application part and the FG-IRODS service for the persistent data storage part.The poster will detail the functionalities offered by the 4P platform, the technologies used and the technical infrastructure, in particular the integration with PHIS and France Grilles.Réeerences :[1] https://www.phenome-emphasis.fr/[2] https://www6.paca.inra.fr/emmah/Programme-scientifique-et-Equipes/Equipe-CAPTE[3] https://github.com/broadinstitute/cromwell[4] https://irods.org/[5] http://www.phis.inra.fr[6] http://www.france-grilles.frTranslated with www.DeepL.com/Translator (free version)
Le phénotypage haut-débit consiste à mesurer les caractéristiques des plantes à différentes échelles de temps et d'organisation. Le projet PHENOME-EMPHASIS [1], associant l’INRAE, Arvalis et Terres-Inovia a pour ambition de développer des infrastructures de phénotypage haut-débit au niveau national. Un effort particulier a été porté ces dernières années sur le développement de systèmes d’acquisitions de données (en particulier drone et phenomobile) permettant d’embarquer différents types de capteurs (caméras haute résolution RGB, multispectrales et infra-rouge thermique, LIDARs). L’ensemble de ces capteurs génère un volume important d’images, qu’il convient de traiter, stocker et archiver. Des modules de traitement prototypes sont créés au sein de l’UMT CAPTE [2] responsable du développement des méthodes et outils de phénotypage haut-débit au champ. Ils ont été industrialisés et intégrés dans la plateforme de traitement des données 4P (Plant Phenotyping Processing Platform). Certains modules embarquent des logiciels propriétaires (Matlab, Photoscan), d’autres nécessitent des bibliothèques logicielles spécifiques et peuvent s’exécuter sur des environnements hétérogènes (Windows, Linux). La portabilité est donc un élément crucial qui est assurée par l’encapsulation des modules dans des containeurs Docker.Ces modules peuvent être enchaînés dans des workflows que les utilisateurs créent selon leur besoin, à l’aide d’outils interactifs disponibles depuis une interface web développée en Java.Une architecture de calcul distribué a été mise en place afin d’exécuter ces workflows : elle s’appuie sur le moteur de traitements Cromwell [3] qui se charge d’exécuter les différents modules de manière séquentielle ou parallélisée.Cromwell se charge de l'enchaînement des modules mais ne permet pas de distribuer les traitements sur plusieurs machines. L’outil Docker Swarm permet de distribuer l’exécution des conteneurs Docker sur plusieurs machines regroupées dans un cluster. Ce mode se base sur un ou plusieurs managers qui vont centraliser les demandes et les distribuer sur différents nœuds (machines sur lesquelles sont installées le service Docker).Concernant la persistance des données, les données brutes et les sorties des traitements sont stockées sur une architecture distribuée basée sur la technologie iRODS [4].La plateforme 4P est connectée au système d’information PHIS (Phenotyping Hybrid Information System) [5]. Ce système d’information a pour objectif de stocker et d’organiser les données produites dans le cadre du projet PHENOME-EMPHASIS en appliquant les principes FAIR  (Findable, Accessible, Interoperable and Reusable). Cette connexion est faite dynamiquement grâce à l’utilisation de services web.La plateforme 4P est intégrée pleinement à l’infrastructure France Grilles [6]. C’est une infrastructure distribuée pour le calcul et le stockage de données scientifiques fournissant différents services aux utilisateurs notamment :- le service cloud FG-CLOUD qui permet de déployer des machines virtuelles à la demande ;- le service FG-IRODS qui fournit un stockage hautement disponible et personnalisable ;- le service FG-DIRAC qui permet de faire du calcul sur grille.Pour le déploiement de la plateforme 4P nous nous sommes appuyés sur le service FG-CLOUD pour la partie applicative et sur le service FG-IRODS pour la partie stockage persistant des données.Le poster détaillera les fonctionnalités offertes par la plateforme 4P, les technologies utilisées, l’infrastructure technique en particulier l’intégration avec PHIS et France Grilles.Références :[1] https://www.phenome-emphasis.fr/[2] https://www6.paca.inra.fr/emmah/Programme-scientifique-et-Equipes/Equipe-CAPTE[3] https://github.com/broadinstitute/cromwell[4] https://irods.org/[5] http://www.phis.inra.fr[6] http://www.france-grilles.fr

Domaines

Agronomie
Fichier principal
Vignette du fichier
poster_4P_JRES2019.pdf (885.57 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03085753 , version 1 (21-12-2020)

Identifiants

  • HAL Id : hal-03085753 , version 1

Citer

Vincent Negre, Eric David, Philippe Burger, Romain Chapuis, Boris Adam, et al.. Déploiement de la plateforme de traitement des données phénotypage haut débit 4P sur l'infrastructure France Grilles.. JRES 2019, Dec 2019, Dijon, France. ⟨hal-03085753⟩
270 Consultations
58 Téléchargements

Partager

Gmail Facebook X LinkedIn More