SDM: Une Méthode de Distance Rapide pour les Etudes de Phylogénomique

Alexis Criscuolo 1 Vincent Berry 2 Emmanuel J.P. Douzery 1 Olivier Gascuel 2, *
* Auteur correspondant
2 MAB - Méthodes et Algorithmes pour la Bioinformatique
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Les études de phylogénomique se proposent de reconstruire la phylogénie d’un ensemble de taxons en utilisant un grand nombre de gènes homologues. Les données, de tailles “génomiques”, imposent des méthodes rapides. Dans un tel contexte, les méthodes de distance constituent une approche de choix, qu’il s’agisse de réaliser des études exploratoires, ou bien de construire un premier arbre qui sera raffiné en- suite par une approche plus lourde de type maximum de vraisemblance (ML). Néanmoins, une distance évolutive estimée directement à partir des gènes concaténés induit généralement un signal topologique perturbé. Nous proposons ici une nouvelle méthode, nommée Super Distance Matrix (SDM), consistant à combiner une collection de matrices de distances évolutives obtenues à partir de chaque gène en une seule supermatrice de distance. Cette supermatrice est ensuite utilisée pour reconstruire un arbre à l’aide d’une méthode de distance classique. Le principe consiste à déformer les matrices sources sans modi- fier leur message topologique, de manière à minimiser leur éloignement réciproque au sens de l’écart quadratique. Une difficulté est que les matrices sources correspondent à des ensembles de taxons qui ne sont que partiellement recouvrants. Nous montrons que ce problème s’exprime comme la minimisation d’un critère quadratique sous contraintes linéaires, ce qui revient à résoudre un système linéaire. La résolution de ce système creux a une complexité pratique de l’ordre de , où représente le nombre de taxons, le nombre de matrices et , ce qui permet d’obtenir très rapidement la supermatrice de distance souhaitée. Nous étudions les performances de SDM à l’aide de simulations. Plusieurs utili- sations de SDM sont envisagées, de l’étude exploratoire rapide à des approches plus lourdes en temps calculs. Nous montrons que SDM constitue une alternative pertinente à la méthode standard “Matrix Representation with Parsimony” (MRP), en particulier lorsque les matrices sont peu recouvrantes. Nous montrons également que SDM construit un excellent arbre de départ pour une approche basée sur le critère ML, qui permet à la fois de réduire les temps calculs et de gagner en précision. Nous analysons à l’aide de SDM le jeu de données moléculaires de Gatesy et al. [14] composé de quarante-huit gènes et soixante-quinze mammifères. Les résultats inférés par SDM indiquent une très forte hétérogénéité des vitesses d’évolution dans cette collection de gènes et confirment les résultats théoriques obtenus par simulations.
Type de document :
Communication dans un congrès
G. Perrière; A. Guenoche; C. Geourjon. JOBIM: Journées Ouvertes Biologie, Informatique, Mathématiques, Jul 2005, Lyon, France. 6èmes Journées Ouvertes Biologie, Informatique, Mathématiques, pp.231-244, 2005
Liste complète des métadonnées

Littérature citée [43 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00106495
Contributeur : Christine Carvalho de Matos <>
Soumis le : lundi 16 octobre 2006 - 08:29:48
Dernière modification le : jeudi 25 janvier 2018 - 17:22:01
Document(s) archivé(s) le : mardi 6 avril 2010 - 19:45:41

Fichier

Identifiants

  • HAL Id : lirmm-00106495, version 1

Collections

Citation

Alexis Criscuolo, Vincent Berry, Emmanuel J.P. Douzery, Olivier Gascuel. SDM: Une Méthode de Distance Rapide pour les Etudes de Phylogénomique. G. Perrière; A. Guenoche; C. Geourjon. JOBIM: Journées Ouvertes Biologie, Informatique, Mathématiques, Jul 2005, Lyon, France. 6èmes Journées Ouvertes Biologie, Informatique, Mathématiques, pp.231-244, 2005. 〈lirmm-00106495〉

Partager

Métriques

Consultations de la notice

152

Téléchargements de fichiers

180