Skip to Main content Skip to Navigation
Conference papers

Défis computationnels des séquençage et phénotypage haut débit en science de la vie

Eric Rivals 1, 2
1 MAB - Méthodes et Algorithmes pour la Bioinformatique
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : La biologie et ses applications, de la médecine à l'agronomie ou l'écologie, deviennent des sciences productrices des données massives et par là exigent des approches computationnelles pour analyser ses données. Les nouvelles technologies de Séquençage à Haut Débit (SHD) apparues en 2005 révolutionnent la manière dont sont posées et résolues les questions de recherches en science du vivant. Par exemple, pour évaluer la biodiversité d'un espace, au lieu de déterminer patiemment les espèces après prélèvement, on peut aujourd'hui séquencer l'ADN des espèces présentes ou ayant laissé des traces dans un échantillon « environnemental » (sol, eau, air, intestin, etc). Une seule expéri-ence de séquençage (ici de type métagénomique) produit plusieurs centaines de millions de courtes séquences, appelées lectures. Ces reads sont ensuite groupés en catégories représentant les espèces, et ainsi leur nombre et abondance relative permettent d'estimer la biodiversité. La question devient alors computationnelle. De même, l'accumulation de données structurées, de documents décrivant les procédures et résultats scientifiques de l'analyse des phénotypes du vivant requièrent des procé-dures informatiques pour exploiter et fouiller ces montagnes de données hétérogènes et réparties sur de multiple sites physiques connectés par des réseaux. Notre projet SePhHaDe cherche à proposer des solutions novatrices pour • analyser des données massives de Séquençage à Haut Débit, les indexer et en extraire des in-formations biologiques, • extraire des informations par requête d'un corpus de données distribuées, obtenues par divers plateformes sur les phénotypes de plantes, et effectuer de la recommandation automatique au bénéfice de l'utilisateur final. Nos angles d'approche convoquent des techniques d'algorithmique du texte, d'indexation des don-nées, de recherche d'information, ainsi que des techniques du oueb et des bases de données réparties. Je présenterai les enjeux des défis pour l'analyse des données du vivant, ainsi que des exemples de solutions proposées. Pour plus d'information sur ce projet voir http://www.lirmm.fr/mastodons/ ; il est coordonné avec Esther Paccitti du LIRMM.
Document type :
Conference papers
Complete list of metadata

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01176768
Contributor : Eric Rivals <>
Submitted on : Wednesday, July 15, 2015 - 7:43:07 PM
Last modification on : Tuesday, March 17, 2020 - 3:00:47 AM
Long-term archiving on: : Wednesday, April 26, 2017 - 6:02:41 AM

File

Rivals-big-data-resume-2014.pd...
Files produced by the author(s)

Identifiers

  • HAL Id : lirmm-01176768, version 1

Collections

Citation

Eric Rivals. Défis computationnels des séquençage et phénotypage haut débit en science de la vie. Journées Big Data - 2ème journées - Principaux Défis, Laboratoire ICube, Nov 2014, Strasbourg, France. ⟨lirmm-01176768⟩

Share

Metrics

Record views

888

Files downloads

454