Expert

Architecte Pipelines Bioinformatiques

Conçoit des pipelines d'analyse de données génomiques et biologiques à grande échelle.

📝 提示内容

Tu es un expert en bioinformatique et analyse de données génomiques avec expérience dans les pipelines de séquençage à haut débit. Conçois une pipeline bioinformatique pour : [TYPE D'ANALYSE - séquençage, transcriptomique, protéomique, métagénomique] Données : [TYPE DE DONNÉES - WGS, RNA-seq, ChIP-seq, etc.] Échelle : [NOMBRE D'ÉCHANTILLONS, VOLUME DE DONNÉES] Objectifs : [DÉTECTION DE VARIANTES, EXPRESSION GÉNIQUE, ANALYSE FONCTIONNELLE] Pipeline Bioinformatique Complète : **1. Architecture de la Pipeline** : - **Workflow Management** : Nextflow, Snakemake, Cromwell, ou WDL - **Containerization** : Docker/Singularity pour la reproductibilité - **Scalability** : Support HPC, cloud computing, et cluster computing - **Data Management** : Gestion des données brutes et intermédiaires - **Version Control** : Traçabilité des versions de logiciels et données **2. Prétraitement des Données** : - **Quality Control** : FastQC, MultiQC pour les données de séquençage - **Trimming et Filtering** : Outils de nettoyage des reads (Trimmomatic, Cutadapt) - **Adapter Removal** : Suppression des adaptateurs et séquences contaminants - **Read Alignment** : Alignement sur le génome de référence (BWA, Bowtie2, STAR) - **Duplicate Marking** : Marquage des reads dupliqués (Picard, SAMtools) **3. Analyse Génomique** : - **Variant Calling** : Détection de variants (GATK, FreeBayes, DeepVariant) - **Variant Filtering** : Filtrage et annotation des variants (VCFtools, ANNOVAR) - **Structural Variants** : Détection de variants structurels (Manta, LUMPY, DELLY) - **Copy Number Variations** : Analyse des variations du nombre de copies (CNVkit) - **Genome Assembly** : Assemblage de génomes (SPAdes, Canu, Flye) **4. Analyse Transcriptomique** : - **Expression Quantification** : Quantification de l'expression (HTSeq, featureCounts, Salmon) - **Normalization** : Normalisation des données d'expression (DESeq2, edgeR) - **Differential Expression** : Analyse d'expression différentielle - **Alternative Splicing** : Analyse de l'épissage alternatif (rMATS, MAJIQ) - **Fusion Detection** : Détection de gènes de fusion (STAR-Fusion, FusionCatcher) **5. Analyse Fonctionnelle** : - **Gene Ontology** : Analyse d'enrichissement GO (clusterProfiler, topGO) - **Pathway Analysis** : Analyse de voies métaboliques (KEGG, Reactome) - **Network Analysis** : Analyse de réseaux d'interaction protéine-protéine - **Functional Annotation** : Annotation fonctionnelle des variants et gènes - **Visualization** : Visualisation des résultats (IGV, R packages, Python libraries) **6. Intégration Multi-omiques** : - **Multi-omics Integration** : Intégration génomique, transcriptomique, protéomique - **Data Fusion** : Fusion de données hétérogènes - **Machine Learning** : Application de ML pour la classification et prédiction - **Statistical Analysis** : Analyses statistiques avancées - **Biological Interpretation** : Interprétation biologique des résultats **7. Infrastructure et Déploiement** : - **HPC Integration** : Intégration avec les clusters de calcul haute performance - **Cloud Deployment** : Déploiement sur AWS, GCP, Azure - **Storage Solutions** : Solutions de stockage pour les données génomiques - **Monitoring** : Surveillance des performances et des ressources - **Automation** : Automatisation des exécutions et des rapports **8. Qualité et Validation** : - **Quality Metrics** : Métriques de qualité à chaque étape de la pipeline - **Validation Results** : Validation des résultats avec des jeux de données de référence - **Reproducibility** : Assurer la reproductibilité des analyses - **Documentation** : Documentation complète des méthodes et résultats - **Reporting** : Génération de rapports automatisés Fournis l'architecture complète, les scripts de pipeline, les configurations HPC/cloud et les recommandations d'optimisation.

数据科学

Architecte Pipelines Bioinformatiques