Monitorování několika clusterů Azure Stack HCI pomocí přehledů

Článek
01/31/2024

Platí pro: Azure Stack HCI, verze 22H2

Tento článek vysvětluje, jak pomocí Přehledů monitorovat více clusterů Azure Stack HCI. Informace o jednom clusteru Azure Stack HCI najdete v tématu Monitorování Služby Azure Stack HCI pomocí přehledů.

Důležité

Pokud jste zaregistrovali cluster Azure Stack HCI a nakonfigurovali přehledy před listopadem 2023, některé funkce, které používají agenta Azure Monitoru (AMA), jako jsou Arc pro servery, VM Insights, Defender for Cloud nebo Sentinel, nemusí správně shromažďovat protokoly a data událostí. Pokyny k řešení potíží najdete v části Řešení potíží s clustery zaregistrovanými před listopadem 2023 .

Informace o výhodách, požadavcích a postupu povolení přehledů v jednotlivých clusterech najdete v tématech Výhody, Požadavky a Povolení přehledů.

Podívejte se na video s rychlým úvodem:

Zobrazení přehledů o stavu, výkonu a využití

Insights ukládá svá data v pracovním prostoru služby Log Analytics, který umožňuje poskytovat výkonné agregace a filtrování a analyzovat trendy dat v průběhu času. Za Přehledy nejsou žádné přímé náklady. Uživatelům se účtují poplatky na základě objemu ingestovaných dat a nastavení uchovávání dat v pracovním prostoru služby Log Analytics.

K přehledům můžete přistupovat z centra > Přehledy služby Azure Monitor > Azure Stack HCI. Zobrazí se následující karty pro přepínání mezi zobrazeními: Přidat do monitorování, Stav clusteru, Servery, Virtuální počítače, Úložiště.

Filtrování výsledků

Vizualizaci je možné filtrovat napříč předplatnými. Výsledky můžete filtrovat na základě následujících rozevíracích nabídek:

Časový rozsah: Tento filtr umožňuje vybrat oblast pro zobrazení trendu. Výchozí hodnota je Posledních 24 hodin.
Odběry: Zobrazuje předplatná, která mají zaregistrované clustery Azure Stack HCI. V tomto filtru můžete vybrat více předplatných.
Clustery HCI: Seznamy zaregistrované clustery Azure Stack HCI, které mají ve vybraném časovém rozsahu povolené funkce protokolování a monitorování. Z tohoto filtru můžete vybrat více clusterů.
Skupiny prostředků: Tento filtr umožňuje vybrat všechny clustery v rámci skupiny prostředků.

Přidat do monitorování

Tato funkce poskytuje podrobnosti o clusterech, které uživatel nemonitoruje. Pokud chcete spustit monitorování clusteru, vyberte ho, aby se cluster otevřel, a pak vyberte Přehledy schopností>. Pokud cluster nevidíte, ujistěte se, že se nedávno připojil k Azure.

Sloupec	Popis	Příklad
Cluster	Název clusteru.	27cls1
Stav připojení k Azure	Stav prostředku HCI.	Připojeno
Verze operačního systému	Operační systém se sestavuje na serveru.	10.0.20348.10131

Ve výchozím nastavení se v zobrazení mřížky zobrazuje prvních 250 řádků. Hodnotu můžete nastavit úpravou řádků mřížky, jak je znázorněno na následujícím obrázku:

Podrobnosti můžete exportovat v Excelu tak, že vyberete Exportovat do Excelu , jak je znázorněno na následujícím obrázku:

Excel zobrazí stav připojení Azure následujícím způsobem:

0: Nezaregistrováno
1: Odpojeno
2: Není nedávno
3: Připojeno

Stav clusteru

Toto zobrazení poskytuje přehled stavu clusterů.

Sloupec	Popis	Příklad
Cluster	Název clusteru.	27cls1
Naposledy aktualizované	Časové razítko poslední aktualizace serveru.	9.4.2022, 12:15:42
Stav	Poskytuje stav prostředků serveru v clusteru. Může být v pořádku, varovná, kritická nebo jiná.	V pořádku
Chybující prostředek	Popis prostředku, který chybu způsobil.	Server, fond úložiště, subsystém
Celkový počet serverů	Počet serverů v clusteru.	4

Pokud váš cluster chybí nebo se zobrazuje stav Jiné, přejděte do pracovního prostoru služby Log Analytics , který se používá pro cluster, a ujistěte se, že konfigurace agenta zachytává data z protokolu microsoft-windows-health/operational . Také se ujistěte, že se clustery nedávno připojily k Azure, a zkontrolujte, že clustery nejsou v tomto sešitu vyfiltrované.

Server

Toto zobrazení poskytuje přehled stavu a výkonu serveru a využití vybraných clusterů. Toto zobrazení je vytvořené pomocí události serveru s ID 3000 kanálu protokolu událostí Microsoft-Windows-SDDC-Management/Operational Windows. Každý řádek můžete dále rozbalit, abyste viděli stav uzlu. V interakci s prostředkem clusteru a serveru můžete přejít na stránku příslušného prostředku.

Virtuální počítače

Toto zobrazení poskytuje stav všech virtuálních počítačů ve vybraném clusteru. Zobrazení je vytvořené pomocí události virtuálního počítače s ID 3003 kanálu protokolu událostí Microsoft-Windows-SDDC-Management/Operational Windows. Každý řádek je možné dále rozbalit a zobrazit distribuci virtuálních počítačů mezi servery v clusteru. Pomocí interakce s prostředkem clusteru a uzlu můžete přejít na stránku příslušného prostředku.

Metric	Popis	Příklad
Server clusteru >	Název clusteru. Při rozšíření se zobrazí servery v rámci clusteru.	Sample-VM-1
Poslední aktualizace	Datum a čas poslední aktualizace serveru.	9.4.2022, 12:24:02 PM
Celkový počet virtuálních počítačů	Počet virtuálních počítačů v uzlu serveru v rámci clusteru.	1 ze 2 spuštěných
Spuštěno	Počet virtuálních počítačů spuštěných v uzlu serveru v rámci clusteru.	2
Zastaveno	Počet virtuálních počítačů zastavených v uzlu serveru v rámci clusteru.	3
Neúspěšný	Počet virtuálních počítačů, u které došlo k selhání v uzlu serveru v rámci clusteru.	2
Jiné	Pokud je virtuální počítač v jednom z následujících stavů (Neznámý, Spouštění, Vytváření snímků, Ukládání, Zastavování, Pozastavení, Obnovení, Pozastaveno, Pozastaveno), považuje se za Jiný.	2

Storage

Toto zobrazení ukazuje stav svazků, využití a výkon napříč monitorovanými clustery. Rozbalením clusteru zobrazíte stav jednotlivých svazků. Toto zobrazení je sestaveno pomocí události svazku s ID 3002 kanálu Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Dlaždice v horní části poskytují přehled o stavu úložiště.

Metric	Popis	Příklad
Svazek clusteru >	Název clusteru. Při rozšíření se zobrazí svazky v rámci clusteru.	AltaylCluster1 > ClusterPerformanceHistory
Naposledy aktualizované	Datetimestamp poslední aktualizace úložiště.	14.4.2022, 14:58:55
Stav svazku	Stav svazku. Může být v pořádku, upozornění, kritický nebo jiný.	V pořádku
Velikost	Celková kapacita zařízení v bajtech během sledovaného období.	25B
Využití	Procento dostupné kapacity během sledovaného období.	23.54%
Iops	Vstupně-výstupní operace za sekundu.	45/s
Trendovou	Trend IOPS
Propustnost	Počet bajtů za sekundu, které Application Gateway obsloužil	5B/s
Trend (B/s)	Trend propustnosti.
Průměrná latence	Latence je průměrná doba potřebná k dokončení V/V požadavku.	334 μs

Přizpůsobení přehledů

Vzhledem k tomu, že uživatelské prostředí je postavené na šablonách sešitů služby Azure Monitor, můžou uživatelé upravovat vizualizace a dotazy a ukládat je jako přizpůsobený sešit.

Pokud používáte vizualizaci z centra > Přehledy služby Azure Monitor > Azure Stack HCI, vyberte Přizpůsobit > Upravit > Uložit jako a uložte kopii upravené verze do vlastního sešitu.

Sešity se ukládají ve skupině prostředků. Každý, kdo má přístup ke skupině prostředků, má přístup k přizpůsobenému sešitu.

Většina dotazů se píše pomocí dotazovací jazyk Kusto (KQL). Některé dotazy se zapisují pomocí Resource Graph Query. Další informace najdete v následujících článcích:

Podpora

Pokud chcete otevřít lístek podpory pro Přehledy, použijte typ služby Insights pro Azure Stack HCI v části Monitorování & Správa.

Kanál protokolu událostí

Zobrazení přehledů a monitorování jsou založená na microsoft-Windows-SDDC-Management / kanálu provozního protokolu událostí Systému Windows. Pokud je povolené monitorování, ukládají se data z tohoto kanálu do pracovního prostoru služby Log Analytics.

Zobrazení a změna intervalu mezipaměti výpisu paměti

Výchozí interval pro výpis mezipaměti je nastavený na 3600 sekund (1 hodina).

K zobrazení hodnoty intervalu výpisu mezipaměti použijte následující rutiny PowerShellu:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Pomocí následujících rutin můžete změnit frekvenci výpisu mezipaměti. Pokud je nastavená hodnota 0, zastaví se publikování událostí:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Události Windows v kanálu protokolu

Tento kanál zahrnuje pět událostí. Každá událost má název clusteru a ID Resource Manager Azure jako EventData.

ID události	Typ události
3000	Server
3001	Jednotky
3002	Svazek
3003	Virtuální počítač
3004	Cluster

Hodnota sloupce RenderedDescription události serveru 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Většina proměnných je z těchto informací JSON srozumitelná. V následující tabulce je ale uvedeno několik proměnných, jejichž pochopení je trochu obtížnější.

Proměnná	Popis
m_servers	Pole uzlů serveru.
m_statusCategory	Stav serveru.
m_status	Stav serveru. Jedná se o pole, které může obsahovat jednu nebo dvě hodnoty. První hodnota je povinná (0-4). Druhá hodnota je volitelná (5–9).

Hodnoty proměnné m_statusCategory jsou následující:

Hodnota	Význam
0	V pořádku
1	Upozornění
2	Není v pořádku
255	Jiné

Hodnoty proměnné m_status jsou následující:

Hodnota	Význam
0	Nahoru
1	Dolů
2	Při údržbě
3	Připojení
4	Normální
5	Isolated
6	V karanténě
7	Odvodnění
8	Odtok dokončen
9	Vyprázdnění selhalo
0xffff	Neznámý

Hodnota sloupce RenderedDescription události jednotky 3001

Událost jednotky 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Hodnota sloupce RenderedDescription události svazku 3002

Událost svazku 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Většina proměnných je vysvětlená z výše uvedených informací JSON. V následující tabulce je ale uvedeno několik proměnných, jejichž pochopení je trochu obtížnější.

Proměnná	Popis
Seznam svazků	Pole svazků.
m_StatusCategory	Stav svazku.
m_Status	Stav svazku. Jedná se o pole, které může obsahovat jednu nebo dvě hodnoty. První hodnota je povinná (0-4). Druhá hodnota je volitelná (5–9).

Hodnoty proměnné m_statusCategory jsou následující:

Hodnota	Význam
0	V pořádku
1	Upozornění
2	Není v pořádku
255	Jiné

Hodnoty proměnné m_status jsou následující:

Hodnota	Význam
0	Neznámý
1	Jiné
2	OK
3	Potřebuje opravu
4	Zdůraznil
5	Prediktivní selhání
6	Chyba
7	Neopravitelná chyba
8	Spouštění
9	Zastavování
10	Zastaveno
11	V provozu
12	Žádný kontakt
13	Ztráta komunikace
14	Bylo přerušeno
15	Spící
16	Podpůrná entita se stala chybou
17	Dokončeno
18	Režim napájení
19	Přemístění
0xD002	Dolů
0xD003	Vyžaduje opětovnou synchronizaci

Hodnota sloupce RenderedDescription události virtuálního počítače 3003

Událost virtuálního počítače 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Hodnota sloupce RenderedDescription události clusteru 3004

Událost clusteru 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Další informace o shromažďovaných datech najdete v tématu Chyby služby Health Service.

Další kroky

Související informace najdete tady:

Sdílet prostřednictvím