Avancerad
Analys av Flaskhalsar i Distribuerad Spårning
Analysera spårningsdata för att identifiera latensproblem i mikrotjänster.
Agera som en senior prestandaingenjör. Vi har observerat en ökning av P99-svarstider i vår transaktionshanteringstjänst. Med hjälp av telemetridata från OpenTelemetry, identifiera de specifika spans som bidrar mest till den totala svarstiden. Analysera relationen mellan tjänsteansropen för att avgöra om problemet beror på nätverksfördröjningar, ineffektiva databasfrågor eller låsningssituationer. Beskriv steg-för-steg hur du skulle använda spårningsdiagrammen för att isolera rotorsaken och vilka metriska tröskelvärden som bör justeras.
Avancerad
Beräkning av Felbudget och SLO-erodering
Strategisk hantering av Service Level Objectives och felbudgetar.
Du ansvarar för tillförlitlighetsstrategin för en kritisk e-handelsplattform. Vårt nuvarande SLO är 99,9% tillgänglighet över en 30-dagars rullande period. På grund av en nyligen deployment har vi haft en incident som orsakat 2 timmars driftstopp. Beräkna den aktuella statusen för felbudgeten och avgör om vi befinner oss i en 'erodering'-fas. Beskriv hur vi bör hantera framtida deploymenter (t.ex. pausa releaser, öka testkrav) för att återställa budgeten innan periodsutgången, och hur vi kommunicerar detta till produktteamet.
Avancerad
Komplex PromQL-frågor för Trendanalys
Skapa avancerade PromQL-frågor för att upptäcka avvikelser.
Vi behöver en avancerad PromQL-fråga för att övervaka vår applikations minnesanvändning. Skriv en fråga som beräknar den procentuella ökningen av heap-användning jämfört med samma tidpunkt förra veckan (veckors-över-veckor trend). Frågan måste också använda 'predict_linear'-funktionen för att förutsäga om minnet kommer att tömmas inom de kommande 4 timmarna om trenden fortsätter. Förklara logiken bakom time-väljarna och hur du hanterar 'scraping intervals' i prognosen.