Réseau bayésien dynamique étiqueté : cadre et apprentissage de structure pour application aux réseaux écologiques

Etienne Auclair

Résumé

An ecological network represents the interactions between living species within an ecosystem. The knowledge of the structure of such a network is an important challenge in the field of ecology.This task can be realized by inference methods : a set of methods that uses ecological observations data (species abundance, presence or absence of species...) in order to learn the interactions mathematically, by the exploitation of the effect of these interactions on the observed data.This thesis describes a case where the ecological data we dispose of are only data of presence/absence of species observed at different moments. The goal is to develop a method that exploits those kind of data in order to learn the interaction between these species. The main difficulty is that binary variables carry little information. Expert knowledge on the system is used to help learning the network's structure.We use the framework of dynamic Bayesian network : temporal presence/absence data are modeled as the realization of a set of dynamic random variables whose dependencies are described by an oriented graph. Such a model can be simplified using expert knowledge.This thesis describes a particular model of "labelled" dynamic Bayesian network. In this model, the graph is defined by a small number of different types of interactions that constitute a set of labels attributed to the edges of the graph.This model can describe several phenomena where an information or a perturbation can be propagated by contact (rumour, disease, forest fire....)This model describes the presence or absence probabilities of each species as a function of the number of interactions of each label this species is subject to. This model allows to describe every presence/absence probability of species using a small number of parameters independent from the network's structure. This is the framework used for the modeling of species dynamics within an ecological network : the information propagated is the presence or the absence of a species, knowing the interaction between the species of the network. Then, we describe the processes we use for learning the structure of a labelled dynamic Bayesian network using time series of binary variables. This 'Estimation-Restoration' algorithm alternates two steps : a phase of parameter estimation knowing the structure, and a phase of structure learning knowing the parameters. This last step can be complex. It is done by solving a integer linear programming problem. This allows to use efficient existing tools for solving those kind of problems. Moreover, we can easily add expert knowledge by the form of linear constraints. This process has been used on a particular case study :the observation of arthropods species trapped in experimental fields in the united kingdom. In order to highlight the differences between the different crops, different networks have been learnt. Finally, we compare the learnt network with others, learnt with different learning methods on the same data.

Un réseau écologique désigne l'ensemble des interactions entre les espèces vivantes d'un écosystème donné. En connaître la structure est un défi important dans le domaine de l'écologie. Cela peut se faire par des méthodes d'inférence, c'est à dire le fait d'utiliser des données d'observation écologique (l'abondance des espèce, leur présence/absence...) afin de reconstruire par des méthodes mathématiques les interactions en captant leur influence sur ces observations. Dans cette thèse, nous nous plaçons dans le cadre où les données écologiques dont on dispose sont des données de présence/absence d'espèces mesurées à différents pas de temps. Le but est de développer une méthode exploitant la dynamique de ces données pour apprendre les interactions entre les espèces. La difficulté réside dans le fait que des données binaires sont peu informatives. Des connaissances expertes sur le système étudié pourront aider à l'apprentissage. Un cadre naturel pour apprendre une structure de réseau à partir de données binaires et dynamiques est celui des réseaux bayésiens dynamiques : les données de présence/absence temporelles sont modélisées comme des réalisations d'une série de variables aléatoires dynamiques dont les dépendances sont indiquées par un graphe orienté. Dans le cas où l'on n'a que peu de données, grâce à de la connaissance experte supplémentaire, il est possible de simplifier ce modèle.Cette thèse décrit un modèle particulier de réseau bayésien dynamique dit " étiqueté ". Ce modèle utilise un graphe dans lequel il existe un petit nombre de types d'interactions différentes, représentées par un petit nombre d'étiquettes attribuées à chaque arc. Ce modèle permet de décrire plusieurs phénomènes renseignant d'une information ou d'une perturbation pouvant se propager par contact (rumeur, maladie, feu de forêt...). Les probabilités de chaque variable sont calculées par une fonction dépendante du nombre d'interactions de chaque étiquette que cette variable subit. Ce modèle permet de décrire toutes les probabilités conditionnelles à l'aide d'un petit nombre de paramètres, indépendant de la structure du réseau. Ce cadre est utilisable pour modéliser la dynamique dans un réseau écologique : l'information diffusée est la présence ou l'absence d'une espèce, dépendant des interactions entre les espèces du réseau.Nous décrivons ensuite une méthode permettant d'apprendre la structure d'un réseau bayésien dynamique étiqueté à l'aide d'observations de présence/absence d'espèces au cours du temps. Cet algorithme dit d' "estimation-restauration" alterne deux phases : une phase d'estimation de paramètres à structure fixée et une phase d'apprentissage de structure à paramètres fixés. Cette deuxième phase peut être complexe, et est résolue comme un problème de programmation linéaire en nombres entiers. Cela permet, en plus de l'utilisation d'outils efficaces pour la résolution de tels problèmes, d'ajouter de la connaissance experte sous forme de contraintes.Ce procédé a été appliqué à un cas d'étude en particulier : l'observation d'espèces d'arthropodes piégés dans des champs expérimentaux au Royaume-Uni. Afin de constater les différences entre les cultures des parcelles, des réseaux différents ont été appris. Enfin, nous comparons ces réseaux à ceux obtenus par d'autres méthodes d'inférence de réseaux qui avaient été appliquées sur ces mêmes données.

Dynamic bayesian network : framework and structure learning for application to ecological networks

Réseau bayésien dynamique étiqueté : cadre et apprentissage de structure pour application aux réseaux écologiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager