📊 Monitoring - Bibliothèque de Prompts IA

Avancé

Chasseur d'Anomalies Silencieuses

#anomalies #observabilité #analyse

Identifier des problèmes de performance qui ne déclenchent pas d'alarmes classiques.

Nous avons un problème : l'application est 'lente' mais aucune alerte ne se déclenche car tous les seuils (thresholds) restent verts. Agis comme un détective en observabilité. Liste 5 types d'anomalies silencieuses (ex: 'Slow Leaks', 'High Frequency Low Latency spikes') qui pourraient causer cela, et propose pour chacune une requête de surveillance avancée (promQL ou SQL) adaptée pour les traquer.

Avancé

Stratégie de Monitoring d'Infrastructure

#devops #infrastructure #aws #kpi

Élaborer un plan complet de surveillance pour une pile technologique cloud.

Agis en tant qu'expert DevOps. Je dois mettre en place une stratégie de monitoring pour une application SaaS hébergée sur AWS. Définis les 'Golden Signals' (Latence, Trafic, Erreurs, Saturation) spécifiques à cette application. Propose une architecture de monitoring incluant la collecte de métriques, les logs centralisés et le tracing distribué. Recommande des outils (ex: Prometheus, Grafana, ELK Stack) et justifie tes choix en fonction de la scalabilité et de la maintenance.

Intermédiaire

Configuration d'Alertes Intelligents

#alerting #prometheus #api #seuils

Créer des règles d'alerte robustes pour éviter la fatigue des alertes.

Rédige des règles d'alerte pour une API REST critique. Nous voulons surveiller le taux d'erreurs HTTP 5xx et la latence du 95ème percentile. Écris les requêtes PromQL ou l'équivalent pour ton outil de surveillance. Assure-toi d'inclure des mécanismes pour éviter les fausses alertes (ex: hystérésis, durée de stabilisation) et propose une annotation claire pour les tickets d'incident créés automatiquement.

Intermédiaire

Conception de Dashboard Métier

#dashboard #grafana #bi #kpi

Créer un tableau de bord visuel pour les indicateurs de performance clés.

Conçois la structure d'un Dashboard Grafana dédié aux équipes Produit et Marketing pour un site e-commerce. Liste les panneaux essentiels à inclure (ex: Nombre de commandes par minute, Taux de conversion, Temps de paiement API). Pour chaque panneau, décide du type de visualisation (jauge, graphique temporel, tableau) et explique pourquoi cette visualisation est la plus adaptée pour prendre des décisions rapides.

Intermédiaire

Analyse de Logs et Diagnostic

#logs #elk #debugging #correlation

Techniques pour corréler les logs et identifier la racine d'un problème.

Tu es face à une dégradation soudaine des performances d'une base de données. Décris la méthodologie pas à pas pour investiguer ce incident via les logs. Quels champs spécifiques faut-il rechercher dans les logs d'application et de base de données ? Comment corréler l'ID de trace (Trace ID) entre les microservices pour identifier le goulot d'étranglement ? Propose des requêtes d'exemple pour une solution type Elasticsearch ou Splunk.

Débutant

Scénarios de Monitoring Synthétique

#uptime #synthetic #selenium #playwright

Simuler le comportement utilisateur pour vérifier la disponibilité.

Définis des scénarios de surveillance synthétique (Active Monitoring) pour une application bancaire en ligne. Identifie les 3 parcours utilisateur critiques à tester en continu (ex: Connexion, Consultation solde, Virement). Pour chaque scénario, rédige les étapes techniques de validation (vérification du code HTTP, présence d'éléments DOM clés) et suggère la fréquence idéale des tests depuis différentes régions géographiques.

Intermédiaire

Automatiser les règles d'alertes Prometheus

#prometheus #alertmanager #devops #configuration

Générer des configurations d'alerte avancées pour Prometheus.

Agis en tant qu'ingénieur DevOps expert. Je dois configurer des règles d'alerte automatisées pour Prometheus surveillant un cluster Kubernetes. Rédige un fichier 'alerts.yml' incluant : 1. Une alerte si l'utilisation CPU dépasse 80% pendant 5 minutes. 2. Une alerte si l'espace disque disponible est inférieur à 10%. 3. Une alerte critique si un Pod est en statut 'CrashLoopBackOff' plus de 2 fois. Pour chaque alerte, précise le niveau de sévérité (warning, critical) et fournis l'annotation de résumé et de description appropriée.

Avancé

Workflow de supervision synthétique pour API

#api #uptime #workflow #surveillance

Créer un workflow automatisé pour tester la disponibilité d'une API.

Conçois un workflow de monitoring synthétique (comme avec GitHub Actions ou un cron job) pour tester une API REST publique. Le workflow doit : 1. Se déclencher toutes les 5 minutes. 2. Envoyer une requête GET vers un endpoint spécifique. 3. Vérifier que le code HTTP est 200. 4. Vérifier que le temps de réponse est inférieur à 200ms. 5. Envoi automatique d'une notification sur Slack si l'un des critères échoue. Fournis le script ou la configuration YAML nécessaire.

Intermédiaire

Script d'agrégation de logs d'erreurs

#logs #scripting #bash #analyse

Automatiser la collecte et le rapport des erreurs applicatives.

Écris un script Bash pour automatiser la surveillance des logs d'application sur un serveur Linux. Le script doit scanner le fichier '/var/log/app/error.log', extraire les lignes contenant 'ERROR' ou 'FATAL' sur la dernière heure, compter les occurrences par type d'erreur, et générer un rapport JSON compressé. Si le nombre total d'erreurs dépasse le seuil de 50, le script doit envoyer ce rapport via une requête curl à un webhook spécifique pour alerte.

Avancé

Déploiement automatisé de dashboards Grafana

#iac #terraform #grafana #automatisation

Utiliser Terraform pour provisionner des dashboards de monitoring.

Je souhaite automatiser la création de dashboards dans Grafana via Terraform. Rédige la configuration Terraform utilisant le provider 'grafana' pour : 1. Créer une datasource Prometheus locale. 2. Importer et provisionner un dashboard de surveillance système (CPU, Mémoire, Réseau, Disque). Assure-toi que le code est modulaire et utilise des variables pour l'URL de l'instance Grafana et le token d'authentification API.

Intermédiaire

Rapport automatisé de performance SQL

#sql #base de données #performance #reporting

Générer un workflow pour surveiller la lenteur des requêtes SQL.

Crée une procédure stockée ou un script Python qui s'interconnecte à une base de données PostgreSQL pour surveiller les performances. La tâche doit identifier les 10 requêtes les plus lentes (triées par temps d'exécution total) sur les dernières 24 heures en interrogeant 'pg_stat_statements'. Le résultat doit être formaté en tableau HTML et envoyé par email automatiquement aux administrateurs de base de données chaque matin à 08h00.

Avancé

Architecture Observabilité Cloud-Native

#Kubernetes #Prometheus #Grafana #Architecture #SRE

Concevoir une pile de monitoring évolutive avec Prometheus, Grafana et Thanos pour un cluster Kubernetes multi-régions.

Agis en tant qu'architecte SRE senior. Nous devons mettre en place une solution de monitoring pour un cluster Kubernetes s'étendant sur 3 régions différentes. Ta tâche : 1. Propose une architecture haute disponibilité utilisant le pattern 'Federation' ou 'Cortex/Thanos' pour le stockage à long terme. 2. Définis les Exporters essentiels à déployer (Node, Kube-State-Metrics, etc.). 3. Explique comment assurer la continuité de service des alertes si une région tombe. 4. Fournis un exemple de configuration `prometheus.yml` pour le service de découverte. Sois technique, précis et orienté production.

Avancé

Détection d'Anomalies dans les Logs

#Logs #Elasticsearch #Kibana #Regex #Debugging

Créer une requête et une logique d'analyse pour identifier des erreurs silencieuses ou des patterns inattendus dans des journaux d'application.

Voici un extrait de logs d'une application microservices : [INSÉRER EXTRAITS DE LOGS ICI] En tant qu'expert en analyse de données, : 1. Identifie les patterns d'erreurs qui ne déclenchent pas de codes HTTP 5xx (erreurs silencieuses). 2. Rédige une requête Elasticsearch/Lucene (Kibana) pour filtrer ces événements spécifiques. 3. Propose une règle d'alerte basée sur le taux d'apparition de ces patterns par rapport à la moyenne glissante sur 1 heure.

Avancé

Stratégie d'Alerting basée sur les SLO

#SLO #SLI #Alerting #Incident Management #Méthodologie

Définir une hiérarchie d'alertes et des pages on-call basées sur des indicateurs de niveau de service (SLI/SLO) pour réduire la fatigue.

Notre objectif de disponibilité (SLO) est de 99.9% mensuel pour notre API de paiement. Conçois une matrice d'alerting qui respecte les principes suivants : 1. Pas d'alertes basées sur des métriques brutes (CPU, RAM) sauf si elles impactent l'utilisateur. 2. Définis les 'Symptômes' vs 'Causes' pour l'alerting. 3. Crée 2 niveaux d'alertes (Warning, Critique) avec des seuils de burn rate calculés. 4. Explique le runbook de première intervention pour chaque alerte.

Avancé

Diagnostic Performance via Tracing Distribué

#OpenTelemetry #Jaeger #APM #Microservices #Latence

Analyser des traces OpenTelemetry pour identifier les goulots d'étranglement latents dans une architecture microservices.

Nous observons une latence accrue (P95 > 2s) sur le endpoint '/checkout'. Voici une structure de trace représentative : [DÉCRIRE LA STRUCTURE DES SPANS : Gateway -> Auth -> Inventory -> Payment -> Notification]. Analyse la trace pour : 1. Identifier quel service ou quel appel DB spécifique contribue le plus au temps de réponse total. 2. Détecter si la latence est due à des requêtes N+1 ou à un timeout réseau. 3. Propose une optimisation précise du code ou de l'infrastructure pour réduire le P99.