Project Flash: Fortschritte in der Überwachung der Verfügbarkeit von Azure-VMs

Der interne Name Flash leitet sich von der zielgerichteten Bestrebung ab, einen stabilen, zuverlässigen und schnellen Mechanismus zu erstellen, der Kunden das Überwachen der VM-Integrität ermöglicht. Das Hauptziel besteht darin, zu gewährleisten, dass Kunden zuverlässig auf umsetzbare und genaue Telemetriedaten zugreifen, umgehend Benachrichtigungen über Änderungen erhalten und Daten regelmäßig im großen Stil überwachen können. Großes Augenmerk liegt zudem auf der Entwicklung einer zentralisierten und zusammenhängenden Umgebung, die Kunden bequem nutzen können, um ihre einzigartigen Überwachungsanforderungen zu erfüllen. Ihnen soll Folgendes ermöglicht werden:

  • Verwenden genauer und umsetzbarer Daten über Unterbrechungen der VM-Verfügbarkeit (z. B. VM-Neustarts, Einfrieren von Anwendungen aufgrund von Updates der Netzwerktreiber und des Hostbetriebssystems mit einer Dauer von 30 Sekunden) zusammen mit präzisen Fehlerdetails (z. B. Initiierung durch die Plattform oder Benutzer, Neustart oder Einfrieren, geplant oder ungeplant)
  • Analysieren von und Benachrichtigungen zu Trends in der VM-Verfügbarkeit für ein schnelles Debuggen und die Erstellung monatlicher Berichte
  • Regelmäßige Überwachung von Daten im großen Stil und das Erstellen benutzerdefinierter Dashboards, um Informationen über den aktuellsten Verfügbarkeitsstatus aller Ressourcen zu erhalten
  • Empfangen automatisierter Grundursachenanalysen (Root Cause Analyses, RCAs), die Details zu den betroffenen VMs, zur Ursache der Downtime sowie ihrer Dauer, konsequente Fixes und Ähnliches enthalten. Das ermöglicht gezielte Untersuchungen und Post-Mortem-Analysen.
  • Empfangen von Sofortbenachrichtigungen bei kritischen Änderungen der VM-Verfügbarkeit, um Wartungsaktionen schnell auszulösen und Auswirkungen auf Endbenutzer zu verhindern
  • Dynamische Anpassung und Automatisierung von Richtlinien zur Plattformwiederherstellung basierend auf den sich ständig ändernden Workloadempfindlichkeiten und Failoveranforderungen

Flash-Lösungen

Die Flash-Initiative widmet sich der fortwährenden Entwicklung von Lösungen, die den unterschiedlichen Überwachungsanforderungen von Kunden gerecht werden. Informationen zum Ermitteln der für Ihre spezifischen Anforderungen am besten geeigneten Flash-Überwachungslösungen finden Sie in der folgenden Tabelle:

Lösung Beschreibung
Azure Resource Graph (allgemeine Verfügbarkeit) Für Untersuchungen im großen Stil, ein zentrales Ressourcenrepository und die Verlaufssuche soll es großen Kunden mithilfe von Azure Resource Graph (ARG) möglich sein, Telemetriedaten zur Ressourcenverfügbarkeit in allen Workloads regelmäßig zu nutzen.
Event Grid-Systemthema (Public Preview) Um zeitkritische und wichtige Risikominderungen wie ein erneutes Bereitstellen oder das Neustarten von VM-Aktionen zur Verhinderung von Auswirkungen auf Endbenutzer auszulösen, soll es Kunden wie Pearl Abyss und Krafton möglich sein, Warnungen innerhalb von Sekunden nach kritischen Änderungen der Ressourcenverfügbarkeit über Ereignishandler in Event Grid zu empfangen.
Azure Monitor (Public Preview) Um Trends nachzuverfolgen, Plattformmetriken (CPU, Datenträger usw.) zu aggregieren und präzise schwellenwertbasierte Warnungen einzurichten, soll es Kunden möglich sein, eine integrierte VM-Verfügbarkeitsmetrik über Azure Monitor nutzen.
Resource Health (allgemeine Verfügbarkeit) Um sofortige und bequeme Integritätsprüfungen auf der Portalbenutzeroberfläche pro Ressource durchzuführen, können Kunden das Blatt „RHC“ im Portal schnell anzeigen. Außerdem können Sie für eine schnelle und einfache Problembehandlung auf die Verlaufsansicht der Integritätsprüfungen der letzten 30 Tage für diese Ressource zugreifen.

Ganzheitliche Überwachung der VM-Verfügbarkeit

Für einen ganzheitlichen Ansatz zur Überwachung der VM-Verfügbarkeit, einschließlich Szenarios der Routinewartung, Livemigration, Dienstreparatur und VM-Beeinträchtigung, wird die Nutzung von geplanten Ereignissen (Scheduled Events, SE) und Flash-Integritätsereignissen empfohlen.

Geplante Ereignisse bieten Frühwarnungen, die eine Benachrichtigung bis zu 15 Minuten vor den Wartungsaktivitäten senden. Diese Vorlaufzeit ermöglicht es Ihnen, fundierte Entscheidungen zu bevorstehenden Downtimes zu treffen und diese zu vermeiden oder sich auf sie vorzubereiten. Während dieses 15-minütigen Zeitraums können Sie je nachdem, ob Sie die bevorstehende Wartung durchführen möchten, diese Ereignisse flexibel bestätigen oder Aktionen verzögern.

Dahingegen konzentrieren sich Flash-Integritätsereignisse auf die Echtzeitnachverfolgung laufender und abgeschlossener Unterbrechungen der Verfügbarkeit, einschließlich VM-Beeinträchtigungen. Dieses Feature ermöglicht es Ihnen, Downtimes effektiv zu überwachen und zu verwalten sowie die automatisierte Risikominderung, Untersuchungen und Post-Mortem-Analysen zu unterstützen.

Um mit der Überwachung zu beginnen, können Sie die Sammlung von Azure-Produkten erkunden, an die qualitativ hochwertige VM-Verfügbarkeitsdaten ausgeben werden. Zu diesen Produkten gehören Ressourcenintegrität, Aktivitätsprotokolle, Azure Resource Graph, Azure Monitor-Metriken und Azure Event Grid-Systemthema.

Nächste Schritte

Um mehr über die angebotenen Lösungen zu erfahren, fahren Sie mit dem Artikel zur entsprechenden Lösung fort:

Eine allgemeine Übersicht über das Überwachen von Azure-VMs finden Sie unter Überwachen von Azure-VMs und Überwachen von Azure VM-Referenzen.