Avancé
Génération Automatisée de Rapport d'Incident
Scripting et analyse pour générer une 'Root Cause Analysis' à partir des données de monitoring.
📝 Prompt Inhoud
Suite à un incident majeur, nous perdons trop de temps à agréger manuellement les données pour le Post-Mortem. Crée un concept de pipeline automatisé.
1. Décris comment lier un Ticket d'Incident (Jira/ServiceNow) à une fenêtre de temps spécifique dans nos outils de monitoring.
2. Propose un script (Python/Go) qui utilise les API de Grafana et Prometheus pour extraire :
- Les métriques qui ont dépassé les seuils d'alerte.
- Les traces distribuées correspondant aux erreurs 5xx.
- Les logs d'erreur au niveau WARN/ERROR.
3. Structure le format de sortie pour générer un rapport Markdown contenant une timeline reconstituée de l'incident.
4. Comment intégrer les données de 'Change Management' (déploiements CI/CD) dans cette timeline pour identifier la cause potentielle ?