Avancé
Définition et Suivi SLI/SLO
Établir des indicateurs de performance clairs et des budgets d'erreur pour une plateforme critique.
Je suis responsable de produit pour une plateforme e-commerce B2C. Nous avons besoin de passer d'une approche 'uptime' à une approche basée sur la fiabilité utilisateur.
1. Propose 4 SLIs (Service Level Indicators) pertinents qui reflètent l'expérience utilisateur réelle (ex: latence de validation de panier, taux de succès de recherche, etc.) et pas seulement la santé des serveurs.
2. Définis un SLO (Service Level Objective) chiffré pour chacun sur une fenêtre glissante de 30 jours.
3. Explique le concept de 'Error Budget' et propose 4 actions correctives automatiques à déclencher lorsque le budget d'erreur est consommé à 50%, 75% et 100%.
4. Crée un modèle de tableau de bord exécutif visualisant l'état de santé des SLO en temps réel.
Avancé
Optimisation des Coûts et Performances de Logs
Audit et refactoring d'une pile de gestion de logs saturée par le volume.
Notre cluster Elasticsearch est saturé (Hot nodes) et les coûts de stockage AWS S3 explosent. Le volume de logs est de 2To/jour.
1. Analyse les goulots d'étranglement potentiels dans le pipeline d'ingestion (Filebeat -> Logstash -> ES).
2. Propose une stratégie de 'Log Structuring' pour migrer de logs texte brut à du JSON structuré afin d'améliorer l'indexation.
3. Définis une politique de 'Index Lifecycle Management (ILM)' pour déplacer les données des nodes Hot vers Warm puis Frozen, et définir une durée de rétention par type de log (Access vs Application).
4. Suggère l'implémentation d'un mécanisme de sampling côté agent pour les logs DEBUG/INFO en environnement de production.
Avancé
Génération Automatisée de Rapport d'Incident
Scripting et analyse pour générer une 'Root Cause Analysis' à partir des données de monitoring.
Suite à un incident majeur, nous perdons trop de temps à agréger manuellement les données pour le Post-Mortem. Crée un concept de pipeline automatisé.
1. Décris comment lier un Ticket d'Incident (Jira/ServiceNow) à une fenêtre de temps spécifique dans nos outils de monitoring.
2. Propose un script (Python/Go) qui utilise les API de Grafana et Prometheus pour extraire :
- Les métriques qui ont dépassé les seuils d'alerte.
- Les traces distribuées correspondant aux erreurs 5xx.
- Les logs d'erreur au niveau WARN/ERROR.
3. Structure le format de sortie pour générer un rapport Markdown contenant une timeline reconstituée de l'incident.
4. Comment intégrer les données de 'Change Management' (déploiements CI/CD) dans cette timeline pour identifier la cause potentielle ?
Intermédiaire
Brainstorming d'Indicateurs Clés (KPIs)
Identifier les métriques essentielles pour un nouveau projet technique.
Agis comme un expert en observabilité informatique. Nous sommes sur le point de lancer une nouvelle application de [Type d'Application]. Aide-moi à brainstormer une liste exhaustive d'indicateurs clés de performance (KPIs) à surveiller. Pour chaque KPI, explique pourquoi il est critique et suggère un seuil d'alerte pertinent.
Intermédiaire
Conception de Tableaux de Bord
Structurer des dashboards clairs et actionnables pour différentes équipes.
Nous devons créer des tableaux de bord de monitoring pour trois audiences différentes : les Développeurs, les Responsables Produit et la Direction IT. Pour chaque groupe, propose une structure de tableau de bord idéale. Liste les graphiques spécifiques, les filtres et les agrégations de données qui seraient les plus pertinents pour leurs besoins respectifs.
Avancé
Détection d'Anomalies Proactives
Imaginer des scénarios de détection de problèmes avant qu'ils ne surviennent.
Notre système de monitoring actuel est réactif (il alerte quand quelque chose casse). Je veux passer à une approche proactive. Brainstorm des scénarios d'analyse de données et de tendances qui pourraient nous permettre de prédire une panne imminente (ex: saturation disque, fuite de mémoire, pic de trafic anormal) avant qu'elle n'impacte les utilisateurs.
Débutant
Sélection de Stack de Monitoring
Comparaison et ideation pour choisir les bons outils de supervision.
Je dois choisir une nouvelle pile d'outils de surveillance pour une infrastructure en croissance rapide. Compare les approches 'Open Source' (ex: Prometheus, Grafana, Loki) et 'SaaS Tout-en-un' (ex: Datadog, New Relic). Liste les 5 facteurs clés à prendre en compte (coût, maintenance, temps de mise en place, évolutivité) pour m'aider à prendre une décision stratégique.