Joint transcriptome and translatome analysis: a reproducible pipeline - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier
Conference Poster Year : 2023

Joint transcriptome and translatome analysis: a reproducible pipeline

Un pipeline reproductible pour l'analyse jointe de transcriptome et de traductome

Abstract

RNA sequencing (RNA-seq) is often used to unravel the regulation of gene expression, as it provides an in-depth view of the transcribed RNA and a relative quantification of each gene or transcript. However, several studies have found that variations in RNA transcript levels do not necessarily correlate well with protein levels [1], suggesting that translation also plays an important role. To address this need to study the impact of translation in gene expression regulation, the translatome can be studied by selecting ribosome-bound RNAs, releasing ribosomes, and then sequencing the selected population of RNAs as in RNA-seq. Polysome sequencing POL-seq is a census assay that provides relative expression levels of genes/transcripts during translation. We have developed a bioinformatics pipeline to jointly analye these transcriptome and translatome fractions, using the workflow manager Snakemake [2] and conda [3] environments. We propose a lightweight wrapper system to facilitate interoperability on different clusters or computers without the need for an Internet connection and to allow the preservation of the shell command visualization during the Snakemake dry-run. This pipeline includes steps, very similar to those used for RNA-seq, namely primary and secondary analysis where both sources of information are integrated. The primary analysis part of the pipeline consists of 4 steps: quality control of the raw data, cleaning of the reads, mapping to the reference genome and counting the mapped reads against the reference. The secondary analysis part is the main step of this workflow and concerns the statistical part. Here we have developed a filtering method. All samples are normalized together to avoid any comparison problems between fractions. Then, we combine the comparisons of each fraction, visualized by a log-log plot, and filter the data according to their transcriptional and translational expression levels. This allows us to separate mRNAs into those that are regulated by transcription only, by translation only, or by both transcription and translation, and to determine whether these regulatione have a combined or opposite effects. The differential transcripts are then enriched with gene ontologies and pathways. This pipeline was used in a published paper with our collaborators [4], we illustrate our pipeline work with figures from that paper.
Le séquençage de l'ARN (RNA-seq) est souvent utilisé pour élucider la régulation de l'expression des gènes, car il fournit une vue approfondie des ARN transcrits et une quantification relative de chaque gène ou transcrit. Cependant, plusieurs études ont montré que les variations des niveaux de transcription de l'ARN ne sont pas nécessairement en corrélation avec les niveaux de protéines [1], ce qui suggère que la traduction joue également un rôle clé. Pour étudier le rôle de la traduction dans la régulation de l'expression des gènes, il est possible d'étudier le translatome en sélectionnant les ARN liés aux ribosomes, en libérant les ribosomes, puis en séquençant la population d'ARN sélectionnée, comme dans l'approche RNA-seq. Cette approche, appelée séquençage des polysomes (POL-seq), est un essai de recensement qui fournit les niveaux d'expression relatifs des gènes/transcriptions pendant la traduction. En utilisant les environnements Snakemake [2] et Conda [3], nous avons développé un pipeline bioinformatique pour analyser conjointement ces fractions du transcriptome et du translatome. Pour favoriser la réutilisation des étapes individuelles, nous proposons un système de wrapper léger pour faciliter l'interopérabilité sur différents matériels sans nécessiter de connexion Internet. En outre, il préserve l'inspection des commandes dans le mode d'exécution à sec de Snakemake. Ce pipeline est divisé en deux parties pour l'analyse primaire et l'analyse secondaire. La partie analyse primaire consiste en 4 étapes : i) contrôle de qualité, ii) nettoyage des lectures de séquençage, iii) mise en correspondance des lectures avec le génome de référence, et iv) comptage des lectures mises en correspondance par gène. La partie analyse secondaire englobe toutes les analyses statistiques permettant d'estimer l'expression différentielle des gènes et d'effectuer ensuite des analyses d'enrichissement fonctionnel (c'est-à-dire les bases de données de l'ontologie des gènes et des voies). Pour la partie statistique, tous les échantillons sont normalisés ensemble afin d'éviter tout problème de comparaison entre les fractions. Nous combinons ensuite les comparaisons de chaque fraction, visualisées par un diagramme log-log, et filtrons les données en fonction de leurs niveaux d'expression transcriptionnelle et traductionnelle. Cela nous permet de classer les ARNm différentiellement exprimés en huit catégories. Ces catégories représentent les ARNm qui sont régulés par la transcription uniquement, par la traduction uniquement, ou par la transcription et la traduction. Dans le cas de régulations conjointes, nous déterminons si ces régulations ont des effets combinés ou opposés. Nous illustrerons ce pipeline par des résultats issus d'une publication avec nos collaborateurs [4].
Fichier principal
Vignette du fichier
abstract_poster_jobim_2023_v2.pdf (51.56 Ko) Télécharger le fichier
Origin Files produced by the author(s)
Licence

Dates and versions

lirmm-04286339 , version 1 (15-11-2023)

Licence

Identifiers

  • HAL Id : lirmm-04286339 , version 1

Cite

Julie Ripoll, Fati Chen, Céline Mandier, Eric Rivals. Joint transcriptome and translatome analysis: a reproducible pipeline. JOBIM 2023 - 23es Journées Ouvertes en Biologie, Informatique et Mathématiques, Jun 2023, Nice, France. 2023. ⟨lirmm-04286339⟩
60 View
21 Download

Share

More