Schutz und Wiederherstellung in der Cloudverwaltung

Vor der Vorbereitung auf einen potenziellen Workloadausfall sollten Cloudverwaltungsteams zunächst sicherstellen, dass sie Anforderungen für Folgendes erfüllen:

Als Grundlage der Planung muss das Team von der Annahme ausgehen, dass im Katastrophenfall etwas ausfällt. Wenn Teams sich auf Ausfälle vorbereiten, können sie Fehler schneller erkennen und den Betrieb in kürzerer Zeit wiederherstellen. In der vorliegenden Disziplin geht es um die Schritte, die sofort nach einem Systemausfall ausgeführt werden müssen. Wie schützen Sie Workloads, sodass sie bei einem Ausfall schnell wiederhergestellt werden können?

Keine technische Lösung kann konsistent eine SLA mit 100 Prozent Betriebszeit bieten. Lösungen mit Architekturen mit einem Höchstmaß an Redundanz nehmen für sich in Anspruch, Betriebszeiten mit „sechs Neunen“, also 99,9999 Prozent zu bieten. Aber selbst eine Lösung mit „sechs Neunen“ fällt jedes Jahr durchschnittlich 31,6 Sekunden lang aus. Lösungen rechtfertigen selten die umfangreichen laufenden Investitionen, die nötig sind, um eine Betriebszeit mit „sechs Neunen“ zu erzielen.

Übersetzen von Gesprächen zum Thema Schutz und Wiederherstellung

Der Geschäftsbetrieb basiert auf folgenden Workloads:

  • Anwendungen
  • Daten
  • Virtuelle Computer (VMs)
  • Andere Ressourcen

Für diese Ressource ist unter Umständen jeweils ein eigener Schutz- und Wiederherstellungsansatz erforderlich. Das wichtigste Ziel dieser Disziplin ist ein konsistentes Engagement im Rahmen der Verwaltungsbaseline, um einen Ausgangspunkt für geschäftsbezogene Gespräche zu schaffen.

Cloudverwaltungsteams sollten mindestens einen Basisansatz für jede Ressource erstellen – mit einem klaren Engagement für eine schnelle Wiederherstellung und minimale Datenverluste.

Recovery Time Objective (RTO)

RTO (Recovery Time Objective) ist die Zeit, die benötigt wird, um für ein beliebiges System den Zustand vor einem Ausfall wiederherzustellen. Dies beinhaltet Zeit für Folgendes:

  • Wiederherstellen minimaler Funktionalität für virtuelle Computer und Anwendungen
  • Wiederherstellen von Daten, die von Anwendungen benötigt werden.

Aus geschäftlicher Sicht stellt RTO den Zeitraum dar, in dem Geschäftsprozesse außer Betrieb sind. Bei unternehmenskritischen Workloads sollte diese Variable relativ niedrig sein, damit Geschäftsprozesse schnell fortgesetzt werden können. Bei Workloads mit geringerer Priorität hat eine Standard-RTO möglicherweise keine nennenswerten Auswirkungen auf die Gesamtleistung des Unternehmens.

Ein Unternehmen sollte eine Verwaltungsbaseline erstellen, die einen RTO-Standard für nicht unternehmenskritische Workloads festlegt. Aus geschäftlicher Sicht kann diese Baseline dann dazu dienen, zusätzliche Investitionen in Wiederherstellungszeiten zu rechtfertigen.

Recovery Point Objective (RPO)

In den meisten Cloudverwaltungssystemen werden Daten durch irgendeine Art von Datenschutz in regelmäßigen Abständen erfasst und gespeichert. Der Wiederherstellungspunkt ist der Zeitpunkt, zu dem die Daten zuletzt erfasst wurden. Wenn ein System ausfällt, kann es nur auf den jüngsten Wiederherstellungspunkt wiederhergestellt werden.

Die Recovery Point Objective ist der Zeitraum zwischen dem neuesten Wiederherstellungspunkt und einem Ausfall. Wenn die RPO in Stunden gemessen wird, hat ein Systemfehler den Verlust von Daten für die Stunden zwischen dem neuesten Wiederherstellungspunkt und dem Ausfall zur Folge. Wenn die RPO in Tagen gemessen wird, hat ein Systemfehler den Verlust von Daten für die Tage zwischen dem neuesten Wiederherstellungspunkt und dem Ausfall zur Folge. Eine RPO von einem Tag würde theoretisch zum Verlust sämtlicher Transaktionen an diesem Tag bis zum Ausfall führen.

Bei unternehmenskritischen Systemen kann die Messung einer RPO in Minuten oder Sekunden dazu beitragen, Umsatz- oder Gewinneinbußen zu vermeiden. Eine kürzere RPO führt im Allgemeinen aber auch zu höheren Verwaltungskosten. Um diese Kosten zu minimieren, sollte ein Unternehmen eine Verwaltungsbaseline erstellen, die sich auf die längstmögliche RPO konzentriert. Anschließend kann das Unternehmen die RPO spezifischer Plattformen oder Workloads verringern, die höhere Investitionen rechtfertigen.

Workloads für Schutz und Wiederherstellung

Die meisten Workloads in einer IT-Umgebung unterstützen nur einen bestimmten geschäftlichen oder technischen Prozess. Systeme, die keine systemrelevanten Auswirkungen auf den Geschäftsbetrieb haben, rechtfertigen üblicherweise nicht die höheren Investitionen, die erforderlich wären, um Systeme schnell wiederherzustellen oder Datenverluste zu minimieren. Durch Festlegen einer Baseline kann ein Unternehmen das nötige Maß an Wiederherstellungsunterstützung mit einem Preis ermitteln, den das Unternehmen dauerhaft bezahlen kann. Dieses Verständnis hilft den Beteiligten auf geschäftlicher Seite, den Wert einer höheren Investition in die Wiederherstellung zu beurteilen.

Für die meisten Cloudverwaltungsteams bietet eine erweiterte Baseline mit spezifischen Zusagen in Bezug auf RPO und RTO für verschiedene Ressourcen den günstigsten Weg zu gegenseitigen Geschäftszusagen. In den folgenden Abschnitten werden einige gängige erweiterte Baselines erläutert, die es einem Unternehmen ermöglichen, Schutz- und Wiederherstellungsfunktionen problemlos über einen wiederholbaren Prozess hinzuzufügen.

Schutz und Wiederherstellung von Daten

Daten sind die wohl wertvollste Ressource in der digitalen Wirtschaft. Der Verlust von Daten, die von einer Produktionsworkload benötigt werden, führt zu Umsatz- oder Gewinneinbußen. Die gängigste erweiterte Baseline ist die Fähigkeit, Daten effektiv zu schützen und wiederherzustellen. Wir empfehlen Cloudverwaltungsteams, eine erweiterte Verwaltungsbaseline anzubieten, die gängige Datenplattformen unterstützt.

Bevor Cloudverwaltungsteams Plattformvorgänge implementieren, unterstützen sie häufig verbesserte Vorgänge für PaaS-Datenplattformen (Platform-as-a-Service). Es ist zum Beispiel für ein Cloudverwaltungsteam problemlos möglich, häufigere Sicherungsvorgänge oder regionsübergreifende Replikationsvorgänge für Azure SQL-Datenbank- oder Azure Cosmos DB-Lösungen zu erzwingen. So kann das Entwicklungsteam die RPO einfach durch Modernisierung seiner Datenplattformen verbessern.

Weitere Informationen zu diesen Überlegungen finden Sie unter Disziplin „Plattformbetrieb“.

Schutz und Wiederherstellung von VMs

Die meisten Workloads sind zu einem gewissen Grad von virtuellen Computern abhängig, die verschiedene Aspekte der Lösung hosten. Unternehmen müssen einige virtuelle Computer schnell wiederherstellen, damit die Workload die zugehörigen Prozesse nach einem Systemausfall wieder unterstützen kann.

Jede Minute, die diese virtuellen Computer nicht verfügbar sind, kann Umsatzverluste oder Gewinneinbußen nach sich ziehen. Wenn sich Ausfallzeiten von virtuellen Computern direkt auf das finanzielle Ergebnis des Geschäfts auswirken, ist die RTO sehr wichtig. Cloudverwaltungsteams können virtuelle Computer schnell wiederherstellen, indem sie sie an einem sekundären Standort replizieren und eine automatisierte Wiederherstellung verwenden. Dieses Modell wird als Hot/Warm-Wiederherstellungsmodell bezeichnet. Die Teams können virtuelle Computer auch an einem funktionsfähigen sekundären Standort replizieren. Dieser Ansatz wird als Hot/Hot-Modell oder als Hochverfügbarkeitsmodell bezeichnet. Der Hot-Hot-Ansatz ist teurer, bietet aber den höchsten Wiederherstellungsstatus.

Jedes dieser Modelle reduziert die RTO, wodurch Unternehmen ihren Geschäftsbetrieb schneller wiederherstellen können. Allerdings zieht jedes Modell auch deutlich höhere Cloudverwaltungskosten nach sich.

Beachten Sie außerdem, dass, abgesehen von der Replikation für Hochverfügbarkeit, Sicherungen für Szenarien wie die folgenden aktiviert werden sollten:

  • Versehentliches Löschen
  • Datenbeschädigung
  • Ransomwareangriffe

Weitere Informationen zu diesen Überlegungen finden Sie unter Disziplin „Workloadbetrieb“.

Nächste Schritte

Sobald diese Komponente der Verwaltungsbaseline umgesetzt ist, kann sich das Team um die Vermeidung von Ausfällen beim Plattformbetrieb und beim Workloadbetrieb kümmern.