Expert
Architecte Pipelines Bioinformatiques
Conçoit des pipelines d'analyse de données génomiques et biologiques à grande échelle.
📝 提示内容
Tu es un expert en bioinformatique et analyse de données génomiques avec expérience dans les pipelines de séquençage à haut débit. Conçois une pipeline bioinformatique pour :
[TYPE D'ANALYSE - séquençage, transcriptomique, protéomique, métagénomique]
Données : [TYPE DE DONNÉES - WGS, RNA-seq, ChIP-seq, etc.]
Échelle : [NOMBRE D'ÉCHANTILLONS, VOLUME DE DONNÉES]
Objectifs : [DÉTECTION DE VARIANTES, EXPRESSION GÉNIQUE, ANALYSE FONCTIONNELLE]
Pipeline Bioinformatique Complète :
**1. Architecture de la Pipeline** :
- **Workflow Management** : Nextflow, Snakemake, Cromwell, ou WDL
- **Containerization** : Docker/Singularity pour la reproductibilité
- **Scalability** : Support HPC, cloud computing, et cluster computing
- **Data Management** : Gestion des données brutes et intermédiaires
- **Version Control** : Traçabilité des versions de logiciels et données
**2. Prétraitement des Données** :
- **Quality Control** : FastQC, MultiQC pour les données de séquençage
- **Trimming et Filtering** : Outils de nettoyage des reads (Trimmomatic, Cutadapt)
- **Adapter Removal** : Suppression des adaptateurs et séquences contaminants
- **Read Alignment** : Alignement sur le génome de référence (BWA, Bowtie2, STAR)
- **Duplicate Marking** : Marquage des reads dupliqués (Picard, SAMtools)
**3. Analyse Génomique** :
- **Variant Calling** : Détection de variants (GATK, FreeBayes, DeepVariant)
- **Variant Filtering** : Filtrage et annotation des variants (VCFtools, ANNOVAR)
- **Structural Variants** : Détection de variants structurels (Manta, LUMPY, DELLY)
- **Copy Number Variations** : Analyse des variations du nombre de copies (CNVkit)
- **Genome Assembly** : Assemblage de génomes (SPAdes, Canu, Flye)
**4. Analyse Transcriptomique** :
- **Expression Quantification** : Quantification de l'expression (HTSeq, featureCounts, Salmon)
- **Normalization** : Normalisation des données d'expression (DESeq2, edgeR)
- **Differential Expression** : Analyse d'expression différentielle
- **Alternative Splicing** : Analyse de l'épissage alternatif (rMATS, MAJIQ)
- **Fusion Detection** : Détection de gènes de fusion (STAR-Fusion, FusionCatcher)
**5. Analyse Fonctionnelle** :
- **Gene Ontology** : Analyse d'enrichissement GO (clusterProfiler, topGO)
- **Pathway Analysis** : Analyse de voies métaboliques (KEGG, Reactome)
- **Network Analysis** : Analyse de réseaux d'interaction protéine-protéine
- **Functional Annotation** : Annotation fonctionnelle des variants et gènes
- **Visualization** : Visualisation des résultats (IGV, R packages, Python libraries)
**6. Intégration Multi-omiques** :
- **Multi-omics Integration** : Intégration génomique, transcriptomique, protéomique
- **Data Fusion** : Fusion de données hétérogènes
- **Machine Learning** : Application de ML pour la classification et prédiction
- **Statistical Analysis** : Analyses statistiques avancées
- **Biological Interpretation** : Interprétation biologique des résultats
**7. Infrastructure et Déploiement** :
- **HPC Integration** : Intégration avec les clusters de calcul haute performance
- **Cloud Deployment** : Déploiement sur AWS, GCP, Azure
- **Storage Solutions** : Solutions de stockage pour les données génomiques
- **Monitoring** : Surveillance des performances et des ressources
- **Automation** : Automatisation des exécutions et des rapports
**8. Qualité et Validation** :
- **Quality Metrics** : Métriques de qualité à chaque étape de la pipeline
- **Validation Results** : Validation des résultats avec des jeux de données de référence
- **Reproducibility** : Assurer la reproductibilité des analyses
- **Documentation** : Documentation complète des méthodes et résultats
- **Reporting** : Génération de rapports automatisés
Fournis l'architecture complète, les scripts de pipeline, les configurations HPC/cloud et les recommandations d'optimisation.