Rekommendationer för att utforma en tillförlitlig strategi för övervakning och avisering

Gäller för denna checklista för Azure Well-Architected Framework Reliability:

RE:10 Mät och publicera lösningens hälsoindikatorer. Samla kontinuerligt in drifttid och andra tillförlitlighetsdata från hela arbetsbelastningen och även från enskilda komponenter och nyckelflöden.

Den här guiden beskriver rekommendationerna för att utforma en tillförlitlig övervaknings- och aviseringsstrategi. Implementera den här strategin för att hålla dina driftteam informerade om miljöns hälsostatus och se till att du uppfyller de etablerade tillförlitlighetsmålen för din arbetsbelastning.

Definitioner

Period Definition
Mått Numeriska värden som samlas in med jämna mellanrum. Mått beskriver vissa aspekter av ett system vid en viss tidpunkt.
Resursloggar Data som ett system genererar. Den innehåller information om systemets tillstånd.
Spårningar Data som ger information om den sökväg som en begäran färdas via tjänster och komponenter.

Viktiga designstrategier

Innan du skapar en övervaknings- och aviseringsstrategi ska du utföra följande uppgifter för din arbetsbelastning som en del av tillförlitlighetsplaneringen:

Skapa en övervaknings- och aviseringsstrategi för att säkerställa att din arbetsbelastning fungerar tillförlitligt. En övervaknings- och aviseringsstrategi ger information till dina driftsteam så att de meddelas om ändringar i arbetsbelastningens villkor och snabbt kan åtgärda problem. Skapa en robust och tillförlitlig övervakningsstrategi genom att skapa en hälsomodell för dina kritiska flöden och de komponenter som dessa kritiska flöden omfattar. Hälsomodellen definierar felfria, degraderade och felfria tillstånd. Utforma din driftstatus för att omedelbart fånga ändringar i dessa tillstånd. När hälsotillstånd ändras från felfri till degraderad eller inte felfri utlöser aviseringsmekanismer automatiska korrigerande åtgärder och meddelar lämpliga team.

Implementera följande rekommendationer för att utforma en strategi för övervakning och aviseringar som uppfyller kraven för din verksamhet.

Implementera en övergripande övervakningsstrategi

  • Förstå skillnaden mellan mått, loggar och spårningar.

  • Aktivera loggning för alla molnresurser. Använd automatisering och styrning i dina distributioner för att aktivera diagnostikloggning i hela miljön.

  • Vidarebefordra alla diagnostikloggar till en centraliserad plattform för datamottagare och analys, till exempel en Log Analytics-arbetsyta. Om du har regionala krav på datasuveränitet måste du använda lokala datamottagare i de regioner som omfattas av dessa krav.

Kompromiss: Det finns kostnadskonsekvenser för lagring och frågekörning av loggar. Observera hur logganalysen och kvarhållningen påverkar din budget och fastställa den bästa användningen för att uppfylla dina krav. Mer information finns i Metodtips för kostnadsoptimering.

  • Om dina arbetsbelastningar omfattas av ett eller flera efterlevnadsramverk omfattas även vissa av de komponentloggar som hanterar känslig information av dessa ramverk. Skicka relevanta komponentloggar till ett SIEM-system (säkerhetsinformation och händelsehantering), till exempel Microsoft Sentinel.

  • Skapa en loggkvarhållningsprincip som innehåller långsiktiga kvarhållningskrav som efterlevnadsramverken ställer på din arbetsbelastning.

  • Använd strukturerad loggning för alla loggmeddelanden för att optimera frågor mot loggdata.

  • Konfigurera aviseringar som utlöses när värden passerar kritiska tröskelvärden som korrelerar med en ändring av hälsotillståndsmodellens tillstånd, till exempel grönt till gult eller rött.

    Tröskelkonfiguration är en metod för kontinuerlig förbättring. När din arbetsbelastning utvecklas kan tröskelvärdena som du definierar ändras. I vissa fall är dynamiska tröskelvärden ett bra alternativ för din övervakningsstrategi.

  • Överväg att använda aviseringar när tillstånden förbättras, till exempel rött till gult eller rött till grönt, så att driftteamen kan spåra dessa händelser för framtida referens.

  • Visualisera miljöns realtidshälsa.

  • Använd data som samlas in under incidenter för att kontinuerligt förbättra dina hälsomodeller och din strategi för övervakning och aviseringar.

  • Införliva molnplattformens övervaknings- och aviseringstjänster, inklusive:

  • Införliva specialbyggd avancerad övervakning och analys som molnleverantören erbjuder, till exempel Azure Monitor-insiktsverktyg.

  • Implementera övervakning av säkerhetskopiering och återställning för att samla in:

    • Datareplikeringsstatusen för att säkerställa att din arbetsbelastning uppnår återställning inom målmålet för återställningspunkt (RPO).

    • Lyckade och misslyckade säkerhetskopieringar och återställningar.

    • Återställningstiden för att informera planeringen för haveriberedskap.

Övervakning av program

  • Skapa hälsoavsökningar eller kontrollera funktioner och kör dem regelbundet utanför programmet. Se till att du testar från flera platser som ligger geografiskt nära dina kunder.

  • Logga data medan programmet körs i produktionsmiljön. Du behöver tillräckligt med information för att diagnostisera orsaken till problem i produktionstillståndet.

  • Logga händelser vid tjänstens gränser. Ta med ett korrelations-ID som flödar över tjänstens gränser. Om en transaktion flödar genom flera tjänster och en av dem misslyckas hjälper korrelations-ID:t dig att spåra begäranden i ditt program och fastställa varför transaktionen misslyckades.

  • Använd asynkrona loggning. Synkrona loggningsåtgärder blockerar ibland programkoden, vilket gör att begäranden säkerhetskopieras när loggar skrivs. Använd asynkron loggning för att bevara tillgängligheten under programloggning.

  • Separera programloggning från granskning. Granskningsposter underhålls ofta för efterlevnads- eller regelkrav och måste vara fullständiga. Undvik borttagna transaktioner genom att underhålla granskningsloggar separat från diagnostikloggar.

  • Använd telemetrikorrelation för att säkerställa att du kan mappa transaktioner via programmet från slutpunkt till slutpunkt och kritiska systemflöden. Den här processen är viktig för att utföra rotorsaksanalys (RCA) för fel. Samla in mått och loggar på plattformsnivå, till exempel CPU-procent, nätverk, nätverk och diskåtgärder per sekund, från programmet för att informera en hälsomodell och för att identifiera och förutsäga problem. Den här metoden kan hjälpa dig att skilja mellan tillfälliga och icke-övergående fel.

  • Använd white box-övervakning för att instrumentera programmet med semantiska loggar och mått. Samla in mått och loggar på programnivå, till exempel minnesförbrukning eller svarstid för begäranden, från programmet för att informera en hälsomodell och för att identifiera och förutsäga problem.

  • Använd black box-övervakning för att mäta plattformstjänster och den resulterande kundupplevelsen. Black box-övervakning testar externt synligt programbeteende utan att känna till systemets interna funktioner. Den här metoden är vanlig för att mäta kundcentrerade servicenivåindikatorer (SLA), servicenivåmål (SLO) och serviceavtal (SLA).

Kommentar

Mer information om programövervakning finns i Hälsoslutpunktsövervakningsmönster.

Övervaka data och lagring

  • Övervaka tillgänglighetsmåtten för dina lagringscontainrar. När det här måttet sjunker under 100 procent anger det misslyckade skrivningar. Tillfälliga avbrott i tillgängligheten kan inträffa när molnleverantören hanterar belastningen. Spåra tillgänglighetstrenderna för att avgöra om det finns ett problem med din arbetsbelastning.

    I vissa fall indikerar en minskning av tillgänglighetsmåtten för en lagringscontainer en flaskhals i beräkningslagret som är associerat med lagringscontainern.

  • Det finns många mått att övervaka för databaser. När det gäller tillförlitlighet är följande viktiga mått att övervaka:

    • Frågevaraktighet

    • Timeouter

    • Väntetider

    • Minnesbelastning

    • Lås

Azure-underlättande

  • Azure Monitor är en omfattande övervakningslösning som används för att samla in, analysera och svara på övervakningsdata från dina molnmiljöer och lokala miljöer.

  • Log Analytics är ett verktyg i Azure Portal som används för att redigera och köra loggfrågor mot data på Log Analytics-arbetsytan.

  • Application Insights är ett tillägg till Azure Monitor. Den tillhandahåller funktioner för övervakning av programprestanda (APM).

  • Azure Monitor-insikter är avancerade analysverktyg som hjälper dig att övervaka Azure-tjänster, till exempel virtuella datorer, programtjänster och containrar. Insikter bygger på Azure Monitor och Log Analytics.

  • Azure Monitor för SAP-lösningar är en Azure-intern övervakningsprodukt för SAP-landskap som körs i Azure.

  • Azure Policy hjälper till att framtvinga organisationsstandarder och utvärdera efterlevnad i stor skala.

  • Azure Business Continuity Center ger dig insikter om din affärskontinuitetsegendom. När du tillämpar metoderna för affärskontinuitet och haveriberedskap (BCDR) använder du Azure Business Continuity Center för att centralisera hanteringen av skydd mot affärskontinuitet i Azure och hybridarbetsbelastningar. Azure Business Continuity Center identifierar resurser som saknar rätt skydd (via säkerhetskopiering eller haveriberedskap) och vidtar korrigerande åtgärder. Verktyget underlättar enhetlig övervakning och gör att du kan upprätta styrnings- och granskningsefterlevnad via Azure Policy, som alla är praktiskt tillgängliga på en plats.

  • Metodtips för flera arbetsytor finns i Designa en Log Analytics-arbetsytearkitektur.

Exempel

Exempel på verkliga övervakningslösningar finns i Övervakning av webbprogram i Azure - och Baslinjearkitektur för ett Azure Kubernetes Service-kluster.

  • Azure Monitor Baseline Alerts (AMBA) är en central lagringsplats för aviseringsdefinitioner som kunder och partner kan använda för att förbättra sin observerbarhetsupplevelse genom att använda Azure Monitor.

Checklista för tillförlitlighet

Se den fullständiga uppsättningen rekommendationer.