dipwmsearch: a python package for searching di-PWM motifs
dipwmsearch: un paquet Python et Conda pour chercher des motifs di-PWM dans des séquences génomiques
Abstract
Motivation
Seeking probabilistic motifs in a sequence is a common task to annotate putative transcription factor binding sites (TFBS). Useful motif representations include Position Weight Matrices (PWMs), dinucleotidic PWMs (di-PWMs), and Hidden Markov Models (HMMs). Dinucleotidic PWMs combine the simplicity of PWMs-a matrix form and a cumulative scoring function-, but also incoporate dependency between adjacent positions in the motif (unlike PWMs which disregard any dependency). For instance, to represent binding sites, the HOCOMOCO database provides di-PWM motifs derived from experimental data. Currently, two programs, SPRy-SARUS and MOODS, can search for di-PWMs in sequences.
Results
We propose a Python package, dipwmsearch, which provides an original and efficient algorithm for this task (it first enumerates matching words for the di-PWM, and then search them at once in the sequence even if it contains IUPAC codes). The user benefits from an easy installation via Pypi or conda, a documented Python interface, and reusable example scripts that smooth the use of di-PWMs.
Seeking probabilistic motifs in a sequence is a common task to annotate putative transcription factor binding sites (TFBS). Useful motif representations include Position Weight Matrices (PWMs), dinucleotidic PWMs (di-PWMs), and Hidden Markov Models (HMMs). Dinucleotidic PWMs combine the simplicity of PWMs-a matrix form and a cumulative scoring function-, but also incoporate dependency between adjacent positions in the motif (unlike PWMs which disregard any dependency). For instance, to represent binding sites, the HOCOMOCO database provides di-PWM motifs derived from experimental data. Currently, two programs, SPRy-SARUS and MOODS, can search for di-PWMs in sequences.
Results
We propose a Python package, dipwmsearch, which provides an original and efficient algorithm for this task (it first enumerates matching words for the di-PWM, and then search them at once in the sequence even if it contains IUPAC codes). The user benefits from an easy installation via Pypi or conda, a documented Python interface, and reusable example scripts that smooth the use of di-PWMs.
La recherche de motifs probabilistes dans une séquence est une tâche courante pour annoter les sites putatifs de liaison des facteurs de transcription (TFBS). Les représentations utilisées des motifs incluent les matrices de poids de position (PWM), les PWM dinucléotidiques (di-PWM) et les modèles de Markov cachés (HMM). Les PWM dinucléotidiques combinent la simplicité des PWM -- une forme de matrice et une fonction de score cumulative --, mais intègrent également la dépendance entre les positions adjacentes du motif (contrairement aux PWM qui ne tiennent pas compte de cette dépendance). Par exemple, pour représenter les sites de liaison, la base de données HOCOMOCO fournit des motifs di-PWM dérivés de données expérimentales. Actuellement, deux programmes, SPRy-SARUS et MOODS, peuvent rechercher des di-PWM dans des séquences.
Nous proposons un package Python, /dipwmsearch/, qui fournit un algorithme original et efficace pour cette tâche: il énumère d'abord les mots correspondants à une di-PWM, puis les recherche en une seule fois dans la séquence (même si elle contient des codes IUPAC). L'utilisateur bénéficie d'une installation facile via /Pypi/ ou /conda/, d'une interface Python documentée, et de scripts d'exemple réutilisables qui facilitent l'utilisation des di-PWMs.
Accès:
1. Python package: https://pypi.org/project/dipwmsearch/
2. Documentation: https://rivals.lirmm.net/dipwmsearch/
3. Conda package: https://anaconda.org/atgc-montpellier/dipwmsearch
4. Source code: https://gite.lirmm.fr/rivals/dipwmsearch
Domains
Bioinformatics [q-bio.QM]Origin | Publisher files allowed on an open archive |
---|---|
Licence |