Ochrona i odzyskiwanie w zarządzaniu chmurą

Artykuł
05/25/2024

Przed przygotowaniem do potencjalnej awarii obciążenia zespoły zarządzania chmurą powinny najpierw upewnić się, że spełniają wymagania dotyczące następujących rozwiązań:

Jak planują, zespoły muszą zacząć od założenia, że coś się nie powiedzie, gdy wystąpi awaria. Przygotowanie do awarii umożliwia zespołom szybsze wykrywanie błędów i szybsze odzyskiwanie. Ta dyscyplina koncentruje się na krokach, które są wykonywane natychmiast po awarii systemu. Jak chronić obciążenia, aby można je było szybko odzyskać po wystąpieniu awarii?

Żadne rozwiązanie techniczne nie może spójnie oferować umowy SLA, która gwarantuje 100 procent czasu pracy. Rozwiązania z najbardziej nadmiarowymi architekturami twierdzą, że zapewniają "sześć 9s" lub 99,9999 procent czasu pracy. Ale nawet rozwiązanie "sześć 9s" spada przez 31,6 sekundy w danym roku. Rzadko zdarza się, aby rozwiązanie uzasadniało duże, trwające inwestycje operacyjne, które muszą osiągnąć "sześć 9s" czasu pracy.

Tłumaczenie konwersacji ochrony i odzyskiwania

Obciążenia obsługujące operacje biznesowe składają się z następujących elementów:

Aplikacje
Data
Maszyny wirtualne (VM)
Inne zasoby

Każdy zasób może wymagać własnego podejścia do ochrony i odzyskiwania. Ważnym celem tej dyscypliny jest ustanowienie spójnego zobowiązania w ramach planu bazowego zarządzania, które może stanowić punkt wyjścia do dyskusji biznesowych.

Co najmniej zespoły ds. zarządzania chmurą powinny utworzyć podejście bazowe dla każdego zasobu z wyraźnym zobowiązaniem do szybkiego odzyskiwania i minimalnej utraty danych.

Cele czasu odzyskiwania (RTO)

Celem czasu odzyskiwania jest czas, jaki należy wykonać, aby odzyskać dowolny system do stanu przed awarią. Obejmowałoby to czas potrzebny na:

Przywracanie minimalnej funkcjonalności do maszyn wirtualnych i aplikacji
Przywracanie danych wymaganych przez aplikacje.

W kategoriach biznesowych cel czasu odzyskiwania reprezentuje czas, przez jaki procesy biznesowe są poza usługą. W przypadku obciążeń o znaczeniu krytycznym ta zmienna powinna być stosunkowo niska, umożliwiając szybkie wznowienie procesów biznesowych. W przypadku obciążeń o niższym priorytcie standardowy poziom czasu odzyskiwania może nie mieć zauważalnego wpływu na wydajność firmy.

Firma powinna utworzyć plan bazowy zarządzania, który ustanawia standardowy cel czasu odzyskiwania dla obciążeń niekrytycznych. Firma może następnie użyć tego planu bazowego jako sposobu uzasadnienia dodatkowych inwestycji w czasie odzyskiwania.

Cele punktu odzyskiwania (RPO)

W większości systemów zarządzania chmurą niektóre formy ochrony danych okresowo przechwytują i przechowują dane. Punkt odzyskiwania odnosi się do ostatniego przechwycenia danych. W przypadku awarii systemu można przywrócić go tylko do ostatniego punktu odzyskiwania.

Cel punktu odzyskiwania jest mierzony z ostatniego punktu odzyskiwania do awarii. Jeśli cel punktu odzyskiwania jest mierzony w godzinach, awaria systemu powoduje utratę danych przez godziny między ostatnim punktem odzyskiwania a awarią. Jeśli cel punktu odzyskiwania jest mierzony w dniach, awaria systemu powoduje utratę danych przez dni między ostatnim punktem odzyskiwania a awarią. Jednorazowy cel punktu odzyskiwania teoretycznie spowoduje utratę wszystkich transakcji w ciągu dnia prowadzącego do awarii.

W przypadku systemów o znaczeniu krytycznym pomiar celu punktu odzyskiwania w minutach lub sekundach może pomóc uniknąć utraty przychodów lub zysków. Jednak krótszy cel punktu odzyskiwania zwykle powoduje zwiększenie kosztów zarządzania. Aby zminimalizować te koszty, firma powinna utworzyć punkt odniesienia zarządzania, który koncentruje się na najdłuższym akceptowalnym celu punktu odzyskiwania. Następnie firma może zmniejszyć cel punktu odzyskiwania dla określonych platform lub obciążeń, które uzasadniają większą inwestycję.

Ochrona i odzyskiwanie obciążeń

Większość obciążeń w it wsparcie środowiska konkretnego procesu biznesowego lub technicznego. Systemy, które nie mają systemowego wpływu na operacje biznesowe, zwykle nie uzasadniają zwiększonej inwestycji wymaganej do szybkiego odzyskania systemów lub zminimalizowania utraty danych. Dzięki ustanowieniu punktu odniesienia firma może ustalić, jakiego poziomu wsparcia odzyskiwania potrzebują w punkcie cenowym, którym może konsekwentnie zarządzać. Zrozumienie tego, co pomaga uczestnikom projektu biznesowego ocenić wartość zwiększonej inwestycji w odzyskiwanie.

W przypadku większości zespołów zarządzania chmurą ulepszony plan bazowy z określonymi zobowiązaniami celu punktu odzyskiwania/celu odzyskiwania dla różnych zasobów daje najbardziej korzystną ścieżkę do wzajemnych zobowiązań biznesowych. W poniższych sekcjach opisano kilka typowych rozszerzonych punktów odniesienia, które umożliwiają firmie łatwe dodawanie funkcji ochrony i odzyskiwania za pośrednictwem powtarzalnego procesu.

Ochrona i odzyskiwanie danych

Dane są prawdopodobnie najcenniejszym zasobem w gospodarce cyfrowej. Utrata danych, które obsługuje obciążenie produkcyjne, prowadzi do utraty przychodów lub zysków. Najczęstszym rozszerzonym punktem odniesienia jest możliwość efektywnego ochrony i odzyskiwania danych. Zachęcamy zespoły do zarządzania chmurą, aby oferować poziom rozszerzonego planu bazowego zarządzania, który obsługuje typowe platformy danych.

Zanim zespoły zarządzania chmurą zaimplementują operacje platformy, często są one obsługiwane przez ulepszone operacje dla platformy danych paaS (platformy jako usługi). Na przykład zespół zarządzający chmurą może wymusić wyższą częstotliwość tworzenia kopii zapasowych lub replikacji wieloregionowej dla rozwiązań usługi Azure SQL Database lub Azure Cosmos DB. Dzięki temu zespół deweloperów może łatwo poprawić cel punktu odzyskiwania przez modernizację platform danych.

Aby dowiedzieć się więcej na temat tego procesu myślowego, zobacz Dziedzina operacje platformy.

Ochrona i odzyskiwanie maszyn wirtualnych

Większość obciążeń jest nieco zależna od maszyn wirtualnych, które hostuje różne aspekty rozwiązania. Firma musi szybko odzyskać niektóre maszyny wirtualne, aby obciążenie obsługiwało jego procesy po awarii systemu.

Co minutę przestoju na tych maszynach wirtualnych może spowodować utratę przychodów lub zmniejszenie zysków. Gdy przestój maszyny wirtualnej ma bezpośredni wpływ na wydajność fiskalną firmy, cel czasu odzyskiwania jest bardzo ważny. Zespoły zarządzania chmurą mogą szybko odzyskiwać maszyny wirtualne, replikując je do lokacji dodatkowej i korzystając z zautomatyzowanego odzyskiwania— modelu nazywanego modelem odzyskiwania gorącą. Zespoły mogą również replikować maszyny wirtualne do funkcjonalnej lokacji dodatkowej w podejściu znanym jako model gorącej lub wysokiej dostępności. Gorące podejście jest droższe, ale oferuje najwyższy stan odzyskiwania.

Każdy z tych modeli zmniejsza cel czasu odzyskiwania, co pomaga firmom szybciej przywrócić możliwości biznesowe. Jednak każdy model powoduje również znaczne zwiększenie kosztów zarządzania chmurą.

Należy również pamiętać, że oprócz replikacji w celu zapewnienia wysokiej dostępności należy włączyć tworzenie kopii zapasowych w scenariuszach, takich jak:

Przypadkowe usunięcie
Uszkodzenie danych
Ataki wymuszającego okup

Aby uzyskać więcej informacji na temat tego procesu myślowego, zobacz Dziedzina Operacje obciążenia.

Następne kroki

Po spełnieniu tego składnika punktu odniesienia zarządzania zespół może z wyprzedzeniem unikać przestojów w operacjach platformy i operacjach obciążeń.

Operacje na platformie — operacje obciążenia

Udostępnij za pośrednictwem