Erstellen einer Metrikwarnung mit dynamischen Schwellenwerten

Dynamische Schwellenwerte wenden fortschrittliches maschinelles Lernen an und verwenden eine Reihe von Algorithmen und Methoden für Folgendes:

  • Erlernen des historischen Verhaltens von Metriken.
  • Analysieren von Metriken im Zeitverlauf und Identifizieren von Mustern wie stündliche, tägliche oder wöchentliche Muster
  • Erkennen von Anomalien, die auf mögliche Dienstprobleme hinweisen.
  • Berechnen der am besten geeigneten Schwellenwerte für Metriken

Wenn Sie dynamische Schwellenwerte verwenden, muss der richtige Schwellenwert für die jeweilige Metrik nicht bekannt sein. Dynamische Schwellenwerte berechnen die am besten geeigneten Schwellenwerte für Sie.

Es wird empfohlen, Warnungsregeln mit dynamischen Schwellenwerten für diese Metriken zu konfigurieren:

  • CPU-Prozentsatz des virtuellen Computers
  • Ausführungszeit der HTTP-Anforderung von Application Insights

Dynamische Schwellwerte helfen Ihnen bei Folgendem:

  • Erstellen Sie skalierbare Warnungen für Hunderte von Metrikreihen mit einer Warnungsregel. Wenn Sie weniger Warnungsregeln nutzen, verbringen Sie weniger Zeit mit ihrer Erstellung und Verwaltung. Skalierbare Warnungen sind besonders nützlich für mehrere Dimensionen oder für mehrere Ressourcen, z. B. für alle Ressourcen in einem Abonnement.
  • Erstellen von Regeln, ohne wissen zu müssen, welcher Schwellenwert konfiguriert werden soll.
  • Konfigurieren von Metrikwarnungen mithilfe von übergeordneten Konzepten, ohne dass umfangreiches Domänenwissen über die Metrik erforderlich ist
  • Verhindern von zu eng (geringe Genauigkeit) oder zu weit gefassten (geringe Abrufe) Schwellenwerten ohne erwartetes Muster

Sie können dynamische Schwellenwerte für Folgendes verwenden:

  • Die meisten Azure Monitor-Plattformmetriken und benutzerdefinierten Metriken
  • Allgemeine Anwendungs- und Infrastrukturmetriken
  • Verrauschte Metriken, z. B. Computer-CPU oder Arbeitsspeicher
  • Metriken mit geringer Verteilung, z. B. Verfügbarkeit und Fehlerrate

Sie können dynamische Schwellenwerte mit Folgendem konfigurieren:

Berechnung und Vorschau des Warnungsschwellenwertes

Wenn eine Warnungsregel erstellt wird, verwenden dynamische Schwellenwerte Verlaufsdaten von 10 Tagen, um stündliche oder tägliche saisonale Muster zu berechnen. Das Diagramm, das in der Warnungsvorschau angezeigt wird, spiegelt diese Daten wider.

Dynamische Schwellenwerte verwenden zum Lernen kontinuierlich alle verfügbaren Verlaufsdaten und nehmen Anpassungen vor, damit sie genauer sind. Nach drei Wochen verfügen dynamische Schwellenwerte über genügend Daten, um auch wöchentliche Muster zu identifizieren, und das Modell wird an die wöchentliche Saisonalität angepasst.

Das System erkennt automatisch längere Ausfälle und entfernt sie aus dem Schwellenwert-Lernalgorithmus. Dynamische Schwellenwerte verstehen trotz längerer Ausfälle die Daten. Sie erkennen Systemprobleme mit der gleichen Empfindlichkeit wie vor dem Ausfall.

Überlegungen zur Verwendung dynamischer Schwellenwerte

  • Um eine genaue Berechnung der Schwellenwerte zu gewährleisten, lösen Warnungsregeln, die dynamische Schwellenwerte verwenden, eine Warnungen erst dann aus, wenn drei Tage lang und mindestens 30 Stichproben von Metrikdaten erfasst wurden. Neue Ressourcen oder Ressourcen, bei denen Metrikdaten fehlen, lösen erst dann eine Warnung aus, wenn genügend Daten verfügbar sind.
  • Dynamische Schwellenwerte benötigen mindestens Verlaufsdaten von drei Wochen, um wöchentliche Saisonalität zu erkennen. Einige detaillierte Muster, z. B. „alle zwei Stunden“ oder „zweimal die Woche“ werden möglicherweise nicht erkannt.
  • Wenn sich das Verhalten einer Metrik kürzlich geändert hat, spiegeln sich die Änderungen nicht sofort in den oberen und unteren Grenzen der dynamischen Schwellenwerte wider. Die Grenzwerte werden basierend auf den Metrikdaten der vergangenen 10 tage berechnet. Wenn Sie die Grenzwerte dynamischer Schwellenwerte für eine bestimmte Metrik anzeigen, verwenden Sie den Metriktrend der letzten Woche und nicht nur den für die letzten Stunden oder Tage.
  • Dynamische Schwellenwerte eignen sich gut zur Erkennung erheblicher Abweichungen, im Gegensatz zu sich langsam entwickelnden Problemen. Langsame Verhaltensänderungen lösen wahrscheinlich keine Warnung aus.

Bekannte Probleme mit der Empfindlichkeit dynamischer Schwellenwerte

  • Wenn eine Warnungsregel, die dynamische Schwellenwerte verwendet, zu viel Rauschen verursacht oder zu häufig ausgelöst wird, müssen Sie möglicherweise ihre Empfindlichkeit reduzieren. Nutzen Sie eine der folgenden Optionen:

    • Schwellenwertempfindlichkeit: Legen Sie die Empfindlichkeit auf Niedrig fest, um bei Abweichungen toleranter zu sein.
    • Anzahl von Verstößen (unter Erweiterte Einstellungen): Konfigurieren Sie die Warnungsregel so, dass sie nur ausgelöst wird, wenn innerhalb eines bestimmten Zeitraums mehrere Abweichungen auftreten. Diese Einstellung macht die Regel weniger anfällig für vorübergehende Abweichungen.
  • Möglicherweise wird eine Warnungsregel, die dynamische Schwellenwerte verwendet, nicht ausgelöst oder ist nicht empfindlich genug, obwohl sie mit hoher Empfindlichkeit konfiguriert ist. Dies kann passieren, wenn die Verteilung der Metrik sehr unregelmäßig ist. Erwägen Sie eine der folgenden Lösungen:

    • Wechseln Sie zur Überwachung einer ergänzenden Metrik, die für Ihr Szenario geeignet ist, falls zutreffend. Überprüfen Sie beispielsweise die Änderungen der Erfolgsrate statt Änderungen der Fehlerrate.
    • Versuchen Sie, eine andere Aggregationsgranularität (Zeitraum) auszuwählen.
    • Überprüfen Sie, ob es im Verhalten der Metrik in den letzten 10 Tagen eine drastische Veränderung gab, z. B. einen Ausfall. Eine plötzliche Änderung kann sich auf die oberen und unteren Schwellenwerte auswirken, die für die Metrik berechnet werden, und sie weiter machen. Warten Sie ein paar Tage, bis der Ausfall nicht länger bei der Berechnung des Schwellenwerts berücksichtigt wird. Sie können die Warnungsregel auch bearbeiten, um die Option Daten ignorieren vor unter Erweiterte Einstellungen zu verwenden.
    • Wenn Ihre Daten wöchentlich saisonabhängig sind, aber nicht genügend Verlauf für die Metrik verfügbar ist, können die berechneten Schwellenwerte zu breiteren Ober- und Untergrenzen führen. Beispielsweise kann die Berechnung Wochentage und Wochenenden auf die gleiche Weise behandeln und breite Rahmen erstellen, die nicht immer den Daten entsprechen. Dieses Problem sollte sich selbst beheben, nachdem genügend Metrikverlauf verfügbar ist. Dann wird dir korrekte Saisonalität erkannt, und die berechneten Schwellenwerte werden entsprechend aktualisiert.
  • Wenn ein Metrikwert große Schwankungen aufweist, können dynamische Schwellenwerte ein Modell mit einem großen Bereich um die Metrikwerte erstellen, was zu einem niedrigeren oder höheren Grenzwert als erwartet führen kann. Dieses Szenario kann in den folgenden Fällen auftreten:

    • Die Empfindlichkeit ist auf „niedrig“ festgelegt.
    • Die Metrik weist ein irreguläres Verhalten mit hoher Varianz auf, die als Spitzen oder Abfälle in den Daten auftreten.

    Erwägen Sie, eine höhere Empfindlichkeit oder einen größeren Wert für den Rückblickzeitraum auszuwählen, um die Empfindlichkeit des Modells zu senken. Alternativ können Sie die Option Daten ignorieren vor verwenden, um eine aktuelle Unregelmäßigkeit aus den historischen Daten auszuschließen, die zum Erstellen des Modells genutzt werden.

Konfiguration dynamischer Schwellenwerte

Um dynamische Schwellenwerte zu konfigurieren, befolgen Sie das Verfahren zum Erstellen einer Warnungsregel. Verwenden Sie diese Einstellungen auf der Registerkarte Bedingung:

  • Wählen Sie für Schwellenwert die Option Dynamisch aus.
  • Es wird empfohlen, für Aggregationstyp nicht die Option Maximum auszuwählen.
  • Wählen Sie für Operator die Option Größer als aus, es sei denn, das Verhalten stellt die Anwendungsnutzung dar.
  • Wählen Sie unter Schwellenwertempfindlichkeit die Option Mittel oder Niedrig aus, um das Warnungsrauschen zu reduzieren.
  • Wählen Sie für Alle überprüfen aus, wie oft die Benachrichtigungsregel überprüft, ob die Bedingung erfüllt ist. Um die geschäftlichen Auswirkungen der Warnung zu minimieren, sollten Sie eine niedrigere Häufigkeit verwenden. Stellen Sie sicher, dass dieser Wert kleiner oder gleich dem Wert Rückblickzeitraum ist.
  • Legen Sie für Rückblickzeitraum den Zeitraum fest, der bei jeder Datenprüfung analysiert werden soll. Stellen Sie sicher, dass dieser Wert größer oder gleich dem Wert Alle überprüfen ist.
  • Wählen Sie unter Erweiterte Einstellungen aus, nach wie vielen Verstößen die Warnung innerhalb eines bestimmten Zeitraums ausgelöst wird. Legen Sie optional das Datum fest, ab dem das Lernen der historischen Daten der Metrik und die Berechnung der dynamischen Schwellenwerte beginnen soll.

Hinweis

Über das Portal erstellte Metrikwarnungsregeln werden in derselben Ressourcengruppe erstellt wie die Zielressource.

Diagramm für dynamische Schwellenwerte

Das folgende Diagramm zeigt eine Metrik, ihre dynamischen Schwellenwertgrenzwerte und einige Warnungen, die ausgelöst werden, wenn der Wert außerhalb der zulässigen Schwellenwerte liegt.

Screenshot: Diagramm mit einer Metrik, ihren dynamischen Schwellenwertgrenzwerten und einigen ausgelösten Warnungen

Verwenden Sie die folgenden Informationen zur Interpretation des Diagramms:

  • Blaue Linie: Die im Laufe der Zeit gemessene Metrik
  • Blau schattierte Bereiche: Der zulässige Bereich für die Metrik. Wenn die Metrikwerte innerhalb dieses Bereichs liegen, wird keine Warnung ausgelöst.
  • Blaue Punkte: Aggregierte Metrikwerte. Wenn Sie einen Teil des Diagramms auswählen und dann mit dem Mauszeiger über die blaue Linie fahren, wird ein blauer Punkt unter Ihrem Cursor angezeigt, der einen individuellen aggregierten Metrikwert anzeigt.
  • Popupfenster mit blauem Punkt: Der gemessene Metrikwert (der blaue Punkt) sowie der oberste und unterste Wert des zulässigen Bereichs
  • Roter Punkt mit einer schwarzen Umrandung: Der erste Metrikwert außerhalb des zulässigen Bereichs. Dieser Wert löst eine Metrikwarnung aus und versetzt diese in einen aktiven Zustand.
  • Rote Punkte: Weitere gemessene Werte außerhalb des zulässigen Bereichs. Sie lösen keine zusätzlichen Metrikwarnungen aus, die Warnung bleibt jedoch aktiv.
  • Roter Bereich: Die Zeit, in der der Metrikwert außerhalb des zulässigen Bereichs lag. Die Warnung bleibt aktiv, solange nachfolgende Messwerte außerhalb des zulässigen Bereichs liegen, es werden aber keine neuen Warnungen ausgelöst.
  • Ende des roten Bereichs: Rückkehr zu zulässigen Werten. Wenn die blaue Linie wieder im zulässigen Bereich liegt, endet der rote Bereich, und die gemessene Wertelinie wird blau. Der Status der Metrikwarnung, die zum Zeitpunkt des roten Punkts mit einer schwarzen Umrandung ausgelöst wurde, wird auf „Behandelt“ festgelegt.

Von dynamischen Schwellenwerten nicht unterstützte Metriken

Dynamische Schwellenwerte unterstützen die meisten Metriken, die folgenden Metriken können jedoch keine dynamischen Schwellenwerte verwenden:

Ressourcentyp Metrikname
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndexCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareQuota
Microsoft.Compute/disks Zusammengesetzter Datenträgerlesevorgang in Bytes/Sek.
Microsoft.Compute/disks Zusammengesetzte Datenträgerlesevorgänge/Sek.
Microsoft.Compute/disks Zusammengesetzter Datenträgerschreibvorgang in Bytes/s
Microsoft.Compute/disks Zusammengesetzte Datenträgerschreibvorgänge/s
Microsoft.ContainerService/managedClusters NodesCount
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartingContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.DocumentDB/databaseAccounts CassandraConnectionClosures
Microsoft.EventHub/clusters Size
Microsoft.EventHub/namespaces Size
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters NodesCount
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartingContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.MachineLearningServices/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft.Maps/accounts CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints EgressBandwidth
Microsoft.Network/applicationGateways Throughput
Microsoft.Network/azureFirewalls Throughput
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/namespaces Size
Microsoft.ServiceBus/namespaces Meldungen
Microsoft.ServiceBus/namespaces ActiveMessages
Microsoft.ServiceBus/namespaces DeadletteredMessages
Microsoft.ServiceBus/namespaces ScheduledMessages
Microsoft.ServiceFabricMesh/applications AllocatedCpu
Microsoft.ServiceFabricMesh/applications AllocatedMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndexCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Wenn Sie Feedback zu dynamischen Schwellenwerten haben, senden Sie es uns per E-Mail.