SDM: Une Méthode de Distance Rapide pour les Etudes de Phylogénomique
Résumé
Les études de phylogénomique se proposent de reconstruire la phylogénie d’un ensemble de taxons en utilisant un grand nombre de gènes homologues. Les données, de tailles “génomiques”, imposent des méthodes rapides. Dans un tel contexte, les méthodes de distance constituent une approche de choix, qu’il s’agisse de réaliser des études exploratoires, ou bien de construire un premier arbre qui sera raffiné en- suite par une approche plus lourde de type maximum de vraisemblance (ML). Néanmoins, une distance évolutive estimée directement à partir des gènes concaténés induit généralement un signal topologique perturbé. Nous proposons ici une nouvelle méthode, nommée Super Distance Matrix (SDM), consistant à combiner une collection de matrices de distances évolutives obtenues à partir de chaque gène en une seule supermatrice de distance. Cette supermatrice est ensuite utilisée pour reconstruire un arbre à l’aide d’une méthode de distance classique. Le principe consiste à déformer les matrices sources sans modi- fier leur message topologique, de manière à minimiser leur éloignement réciproque au sens de l’écart quadratique. Une difficulté est que les matrices sources correspondent à des ensembles de taxons qui ne sont que partiellement recouvrants. Nous montrons que ce problème s’exprime comme la minimisation d’un critère quadratique sous contraintes linéaires, ce qui revient à résoudre un système linéaire. La résolution de ce système creux a une complexité pratique de l’ordre de , où représente le nombre de taxons, le nombre de matrices et , ce qui permet d’obtenir très rapidement la supermatrice de distance souhaitée. Nous étudions les performances de SDM à l’aide de simulations. Plusieurs utili- sations de SDM sont envisagées, de l’étude exploratoire rapide à des approches plus lourdes en temps calculs. Nous montrons que SDM constitue une alternative pertinente à la méthode standard “Matrix Representation with Parsimony” (MRP), en particulier lorsque les matrices sont peu recouvrantes. Nous montrons également que SDM construit un excellent arbre de départ pour une approche basée sur le critère ML, qui permet à la fois de réduire les temps calculs et de gagner en précision. Nous analysons à l’aide de SDM le jeu de données moléculaires de Gatesy et al. [14] composé de quarante-huit gènes et soixante-quinze mammifères. Les résultats inférés par SDM indiquent une très forte hétérogénéité des vitesses d’évolution dans cette collection de gènes et confirment les résultats théoriques obtenus par simulations.
Domaines
Autre [cs.OH]
Loading...