Vad är haveriberedskap?

En katastrof är en enda, större händelse med en större och mer långvarig inverkan än vad ett program kan minimera genom den höga tillgängligheten i designen. Haveriberedskap handlar om att återställa från händelser med hög påverkan, till exempel naturkatastrofer eller misslyckade distributioner, som resulterar i driftstopp och dataförlust. Oavsett orsak är den bästa lösningen för en katastrof en väldefinierad och testad DR-plan och en programdesign som aktivt stöder DR.

Återställningsmål

En fullständig DR-plan måste ange följande viktiga affärskrav för varje process som programmet implementerar:

  • Mål för återställningspunkt (RPO) är den maximala varaktigheten för acceptabel dataförlust. RPO mäts i tidsenheter, inte volym, till exempel "30 minuters data" eller "fyra timmars data". RPO handlar om att begränsa och återställa från dataförlust, inte datastöld.

  • Mål för återställningstid (RTO) är den maximala varaktigheten för acceptabel stilleståndstid, där "stilleståndstid" definieras av din specifikation. Om den acceptabla stilleståndstiden i en katastrof till exempel är åtta timmar är RTO åtta timmar.

Screenshot of RTO and RPO durations in hours.

Varje större process eller arbetsbelastning som ett program implementerar bör ha separata RPO- och RTO-värden genom att undersöka risker i katastrofscenariot och potentiella återställningsstrategier. Processen med att ange ett RPO och RTO skapar effektivt dr-krav för ditt program som ett resultat av dina unika affärsproblem (kostnader, påverkan, dataförlust osv.).

Utforma för haveriberedskap

Haveriberedskap är inte en automatisk funktion, utan måste utformas, byggas och testas. För att stödja en solid DR-strategi måste du skapa ett program med DR i åtanke från grunden. Azure erbjuder tjänster, funktioner och vägledning som hjälper dig att stödja DR när du skapar appar.

Dataåterställning

Under en katastrof finns det två huvudsakliga metoder för att återställa data: säkerhetskopior och replikering.

Säkerhetskopiering återställer data till en viss tidpunkt. Genom att använda säkerhetskopiering kan du tillhandahålla enkla, säkra och kostnadseffektiva lösningar för att säkerhetskopiera och återställa dina data till Microsoft Azure-molnet. Använd Azure Backup för att skapa långlivade, skrivskyddade dataögonblicksbilder för användning i återställning.

Datareplikering skapar realtidskopior eller nästan realtidskopior av livedata i flera datalagerrepliker med minimal dataförlust i åtanke. Målet med replikering är att hålla repliker synkroniserade med så låg fördröjning som möjligt samtidigt som programmets svarstider bibehålls. De flesta fullständigt utvalda databassystem och andra produkter och tjänster för datalagring innehåller någon form av replikering som en nära integrerad funktion, på grund av dess funktions- och prestandakrav. Ett exempel på detta är geo-redundant lagring (GRS)..

Olika replikeringsdesigner prioriterar olika datakonsekvens, prestanda och kostnad.

  • Aktiv replikering kräver att uppdateringar sker på flera repliker samtidigt, vilket garanterar konsekvens på bekostnad av dataflöde.

  • Passiv replikering synkroniserar i bakgrunden, vilket tar bort replikering som ett villkor för programprestanda, men ökar RPO.

  • Aktiv-aktiv replikering eller multimaster-replikering möjliggör användning av flera repliker samtidigt, vilket möjliggör belastningsutjämning på bekostnad av att komplicera datakonsekvensen.

  • Aktiv-passiv replikering reserverar repliker för direkt användning endast under redundansväxling.

Kommentar

De flesta fullständigt utvalda databassystem och andra produkter och tjänster för datalagring omfattar någon form av replikering, till exempel geo-redundant lagring (GRS), på grund av deras funktions- och prestandakrav.

Skapa elastiska program

Katastrofscenarier resulterar också ofta i driftstopp, oavsett om det beror på problem med nätverksanslutningen, datacenteravbrott, skadade virtuella datorer eller skadade programvarudistributioner. I de flesta fall omfattar programåterställning redundans till en separat, fungerande distribution. Därför kan det vara nödvändigt att återställa processer i en annan Azure-region i händelse av en storskalig katastrof. Ytterligare överväganden kan vara: återställningsplatser, antal replikerade miljöer och hur du underhåller dessa miljöer.

Beroende på din programdesign kan du använda flera olika strategier och Azure-funktioner, till exempel Azure Site Recovery, för att förbättra programmets stöd för processåterställning efter en katastrof.

Tjänstspecifika funktioner för haveriberedskap

De flesta tjänster som körs på PaaS-erbjudanden (Plattform som en tjänst) i Azure tillhandahåller funktioner och vägledning för att stödja DR. I vissa scenarier kan du använda tjänstspecifika funktioner för att stödja snabb återställning. Azure SQL Server till exempel stöder geo-replikering för att snabbt återställa tjänsten i en annan region. I Azure App Service finns en funktion för säkerhetskopiering och återställning, och dokumentationen innehåller vägledning om hur du använder Azure Traffic Manager som stöd vid dirigering av trafik till en sekundär region.

Nästa steg