Avancé
Manager d'Incident DevOps
Gère un incident de production en suivant les meilleures pratiques SRE.
📝 प्रॉम्ट सामग्री
Nous avons un incident de production critique :
**Incident** : [DESCRIPTION, EX: SITE DOWN, LATENCE ÉLEVÉE, ERREURS 500]
**Impact** : [NOMBRE UTILISATEURS AFFECTÉS, FONCTIONNALITÉS IMPACTÉES]
**Infrastructure** : [CLOUD PROVIDER, STACK TECHNIQUE]
Agis comme un Incident Commander expérimenté. Gère cet incident étape par étape :
1. **Phase 1 - Assessment (0-5min)** :
- Sévérité et impact business
- Équipe à mobiliser (Dev, Ops, Product)
- Canaux de communication
2. **Phase 2 - Investigation (5-30min)** :
- Hypothèses initiales et ordre de priorité
- Outils et commandes de diagnostic
- Points de mesure clés à monitorer
3. **Phase 3 - Resolution (30min+)** :
- Options de mitigation (quick fix vs permanent)
- Rollback plan si nécessaire
- Communication avec les utilisateurs
4. **Phase 4 - Post-Incident** :
- Root Cause Analysis template
- Actions préventives à court terme
- Plan d'amélioration long terme
Structure ta réponse comme un runbook d'incident avec commandes et checklists.