📊 Monitoring - Bibliothèque de Prompts IA

Avancé

Définition et Suivi SLI/SLO

#SLI/SLO #Fiabilité #Business

Établir des indicateurs de performance clairs et des budgets d'erreur pour une plateforme critique.

Je suis responsable de produit pour une plateforme e-commerce B2C. Nous avons besoin de passer d'une approche 'uptime' à une approche basée sur la fiabilité utilisateur. 1. Propose 4 SLIs (Service Level Indicators) pertinents qui reflètent l'expérience utilisateur réelle (ex: latence de validation de panier, taux de succès de recherche, etc.) et pas seulement la santé des serveurs. 2. Définis un SLO (Service Level Objective) chiffré pour chacun sur une fenêtre glissante de 30 jours. 3. Explique le concept de 'Error Budget' et propose 4 actions correctives automatiques à déclencher lorsque le budget d'erreur est consommé à 50%, 75% et 100%. 4. Crée un modèle de tableau de bord exécutif visualisant l'état de santé des SLO en temps réel.

Avancé

Optimisation des Coûts et Performances de Logs

#Logging #ELK Stack #Cost Optimization

Audit et refactoring d'une pile de gestion de logs saturée par le volume.

Notre cluster Elasticsearch est saturé (Hot nodes) et les coûts de stockage AWS S3 explosent. Le volume de logs est de 2To/jour. 1. Analyse les goulots d'étranglement potentiels dans le pipeline d'ingestion (Filebeat -> Logstash -> ES). 2. Propose une stratégie de 'Log Structuring' pour migrer de logs texte brut à du JSON structuré afin d'améliorer l'indexation. 3. Définis une politique de 'Index Lifecycle Management (ILM)' pour déplacer les données des nodes Hot vers Warm puis Frozen, et définir une durée de rétention par type de log (Access vs Application). 4. Suggère l'implémentation d'un mécanisme de sampling côté agent pour les logs DEBUG/INFO en environnement de production.

Avancé

Génération Automatisée de Rapport d'Incident

#Incident Management #Automation #Analysis

Scripting et analyse pour générer une 'Root Cause Analysis' à partir des données de monitoring.

Suite à un incident majeur, nous perdons trop de temps à agréger manuellement les données pour le Post-Mortem. Crée un concept de pipeline automatisé. 1. Décris comment lier un Ticket d'Incident (Jira/ServiceNow) à une fenêtre de temps spécifique dans nos outils de monitoring. 2. Propose un script (Python/Go) qui utilise les API de Grafana et Prometheus pour extraire : - Les métriques qui ont dépassé les seuils d'alerte. - Les traces distribuées correspondant aux erreurs 5xx. - Les logs d'erreur au niveau WARN/ERROR. 3. Structure le format de sortie pour générer un rapport Markdown contenant une timeline reconstituée de l'incident. 4. Comment intégrer les données de 'Change Management' (déploiements CI/CD) dans cette timeline pour identifier la cause potentielle ?

Intermédiaire

Brainstorming d'Indicateurs Clés (KPIs)

#kpi #metriques #indicateurs

Identifier les métriques essentielles pour un nouveau projet technique.

Agis comme un expert en observabilité informatique. Nous sommes sur le point de lancer une nouvelle application de [Type d'Application]. Aide-moi à brainstormer une liste exhaustive d'indicateurs clés de performance (KPIs) à surveiller. Pour chaque KPI, explique pourquoi il est critique et suggère un seuil d'alerte pertinent.

Intermédiaire

Conception de Tableaux de Bord

#dashboard #visualisation #grafana

Structurer des dashboards clairs et actionnables pour différentes équipes.

Nous devons créer des tableaux de bord de monitoring pour trois audiences différentes : les Développeurs, les Responsables Produit et la Direction IT. Pour chaque groupe, propose une structure de tableau de bord idéale. Liste les graphiques spécifiques, les filtres et les agrégations de données qui seraient les plus pertinents pour leurs besoins respectifs.

Avancé

Détection d'Anomalies Proactives

#anomalies #predictif #machine-learning

Imaginer des scénarios de détection de problèmes avant qu'ils ne surviennent.

Notre système de monitoring actuel est réactif (il alerte quand quelque chose casse). Je veux passer à une approche proactive. Brainstorm des scénarios d'analyse de données et de tendances qui pourraient nous permettre de prédire une panne imminente (ex: saturation disque, fuite de mémoire, pic de trafic anormal) avant qu'elle n'impacte les utilisateurs.

Débutant

Sélection de Stack de Monitoring

#outils #stack #comparatif

Comparaison et ideation pour choisir les bons outils de supervision.

Je dois choisir une nouvelle pile d'outils de surveillance pour une infrastructure en croissance rapide. Compare les approches 'Open Source' (ex: Prometheus, Grafana, Loki) et 'SaaS Tout-en-un' (ex: Datadog, New Relic). Liste les 5 facteurs clés à prendre en compte (coût, maintenance, temps de mise en place, évolutivité) pour m'aider à prendre une décision stratégique.