Insights を使用して複数の Azure Stack HCI バージョン 23H2 クラスターを監視する

適用対象: Azure Stack HCI バージョン 23H2

この記事では、Insights を使用して複数の Azure Stack HCI クラスターを監視する方法について説明します。 1 つの Azure Stack HCI クラスターについては、「 Monitor Azure Stack HCI with Insights」を参照してください。

各クラスターで Insights を有効にする利点、前提条件、および方法については、「 BenefitsPrerequisites、および Enable Insights を参照してください。

Insights を使用して複数のクラスターを監視するには、各クラスターで個別に Insights を有効にする必要があります。 代わりに、Azure ポリシーを使用して大規模に Insights を有効にすることができます。 詳細については、「 Azure ポリシーを使用した大規模な Azure Stack HCI の有効な分析情報を参照してください。

概要紹介のビデオを見る:

正常性、パフォーマンス、および使用状況の分析情報を表示する

Insights は、そのデータを Log Analytics ワークスペースに格納します。これにより、強力な集計とフィルター処理を提供し、時間の経過に伴うデータの傾向を分析できます。 Insights には直接コストはかからなくなります。 ユーザーは、取り込むデータ量と Log Analytics ワークスペースのデータ保有の設定に基づいて課金されます。

Insights には、 Azure Monitor>Insights>Azure Stack HCI からアクセスできます。 ビューを切り替えるには、次のタブを使用します。 監視クラスターの正常性Servers仮想マシンStorage

結果のフィルター処理

視覚化は、サブスクリプション間でフィルター処理できます。 次のドロップダウン メニューに基づいて、結果をフィルター処理できます。

  • 時間範囲: このフィルターを使用すると、傾向ビューの範囲を選択できます。 既定値は [過去 24 時間] です。
  • サブスクリプション: Azure Stack HCI クラスターを登録したサブスクリプションが表示されます。 このフィルターでは、複数のサブスクリプションを選択できます。
  • HCI クラスター: 選択した時間範囲でログと監視機能が有効になっている、登録済みの Azure Stack HCI クラスターを一覧表示します。 このフィルターから複数のクラスターを選択できます。
  • リソース グループ: このフィルターを使用すると、リソース グループ内のすべてのクラスターを選択することができます。

監視への追加

この機能は、ユーザーが監視していないクラスターの詳細を提供します。 クラスターの監視を開始するには、選択してそのクラスターを開き、[Capabilities > Insights]\(機能と分析情報\) を選択します。 クラスターが表示されない場合は、それが Azure に最近接続されたかどうかを確認してください。

監視するクラスターを選択するためのスクリーンショット。

説明
クラスター クラスターの名前です。 27cls1
Azure 接続の状態 HCI リソースの状態。 接続済み
OS バージョン サーバー上のオペレーティング システムのビルド。 10.0.20348.10131

既定では、グリッド ビューに最初の 250 行が表示されます。 値を設定するには、次の図に示すようにグリッド行を編集します。

グリッド値を設定する画面を示すスクリーンショット。

詳細を Excel にエクスポートするには、次の図に示すように [Export にエクスポート] を選択します。

Excel にエクスポートするためのリンクを示すスクリーンショット。

Excel で、次のように Azure 接続の状態が指定されます。

  • 0: 未登録
  • 1: 切断
  • 2: Not Recently (最近接続されていない)
  • 3: 接続

クラスターの正常性

このビューには、クラスターの正常性の概要が表示されます。

クラスターの正常性の概要情報を示すスクリーンショット。

説明
クラスター クラスターの名前です。 27cls1
最終更新日 サーバーの最終更新時のタイムスタンプ 2022/4/9、午後 12:15:42
状態 クラスター内のサーバー リソースの正常性を指定します。 [正常]、[警告]、[重大]、または [その他] になります。 Healthy
障害が発生しているリソース エラーの原因となったリソースの説明。 サーバー、記憶域プール、サブシステム
合計サーバー数 クラスター内のサーバーの数。 4

クラスターがないか、[その他] の状態が表示される場合は、クラスターに使用されている [Log Analytics ワークスペース] に移動し、[エージェントの構成][microsoft-windows-health/operational] ログからデータがキャプチャされていることを確認してください。 最近クラスターが Azure に接続されていることと、このブック内でクラスターがフィルターで除外されていないことも確認してください。

[サーバー]

このビューには、サーバーの正常性とパフォーマンス、および選択したクラスターの使用状況の概要が表示されます。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルのサーバー イベント ID 3000 を使用して作成されます。 各行をさらに展開して、ノードの正常性状態を確認できます。 クラスターおよびサーバー リソースとやり取りして、それぞれのリソース ページに移動できます。

サーバーの正常性を示すスクリーンショット。

仮想マシン

このビューには、選択したクラスター内のすべての VM の状態が表示されます。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルの仮想マシン イベント ID 3003 を使用して作成されます。 各行をさらに展開して、クラスター内のサーバー間の VM の分散を表示できます。 クラスターおよびノード リソースとやり取りして、それぞれのリソース ページに移動できます。

仮想マシンの正常性を示すスクリーンショット。

メトリック 説明
クラスター > サーバー クラスターの名前です。 展開時に、クラスター内のサーバーが表示されます。 Sample-VM-1
最終更新日時 サーバーの最終更新時の日時スタンプ。 2022/4/9、午後 12:24:02
[Total VMs] (VM の総数) クラスター内のサーバー ノード内の VM の数。 1/2 実行中
実行中 クラスター内のサーバー ノードで実行されている VM の数。 2
Stopped クラスター内のサーバー ノードで停止されている VM の数。 3
Failed クラスター内のサーバー ノードで失敗している VM の数。 2
その他 VM が次のいずれかの状態 (不明、開始、スナップショット、保存、停止、一時停止、再開、一時停止、中断) の場合、"その他" と見なされます。 2

Storage

このビューには、監視対象のクラスター全体のボリュームの正常性、使用状況、パフォーマンスが表示されます。 個々のボリュームの状態を表示するには、クラスターを展開します。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルのボリューム イベント ID 3002 を使用して作成されます。 上部のタイルは、ストレージの正常性の概要を示します。

ストレージ ボリュームの正常性を示すスクリーンショット。

メトリック 説明
クラスター > ボリューム クラスターの名前です。 展開時に、クラスター内のボリュームが表示されます。 AltaylCluster1 > ClusterPerformanceHistory
最終更新日 ストレージの最終更新時の日時スタンプ。 2022/4/14、午後 2:58:55
ボリューム正常性 ボリュームの状態。 [正常]、[警告]、[重大]、または [その他] になります。 Healthy
サイズ レポート期間中のデバイスの合計容量 (バイト単位)。 25B
使用方法 レポート期間中の使用可能な容量のパーセンテージ。 23.54%
Iops 1 秒あたりの入出力処理。 45/s
傾向 IOPS の傾向。
スループット Application Gateway で処理された 1 秒あたりのバイト数。 5B/s
傾向 (B/s) スループットの傾向。
平均待機時間 待機時間とは、I/O 要求の完了にかかる平均時間です。 334 μs

Insights のカスタマイズ

ユーザー エクスペリエンスは Azure Monitor ブック テンプレートをベースに作成されているため、ユーザーは視覚化とクエリを編集し、カスタマイズされたブックとして保存できます。

Azure Stack HCI > Azure Monitor > Insights ハブの視覚化を使用している場合は[名前を付けて編集] > [名前を付けて保存] >を選択して、変更したバージョンのコピーをカスタム ブックに保存します。

ブックはリソース グループ内に保存されます。 リソース グループにアクセスできるすべてのユーザーは、カスタマイズされたブックにアクセスできます。

ほとんどのクエリは、Kusto クエリ言語 (KQL) を使用して記述されます。 一部のクエリは、Resource Graph クエリを使用して記述されます。 詳細については、次の記事をご覧ください。

サポート

Insights のサポート チケットを開くには、Monitoring > Management のサービスの種類 Insights for Azure Stack HCI を使用します。

イベント ログ チャネル

分析情報と監視ビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルに基づいています。 監視が有効になっている場合、このチャネルのデータは Log Analytics ワークスペースに保存されます。

ダンプ キャッシュ間隔の表示と変更

キャッシュをダンプする既定の間隔は、3,600 秒 (1 時間) に設定されます。

キャッシュ ダンプ間隔の値を表示するには、次の PowerShell コマンドレットを使用します。

Get-ClusterResource "sddc management" | Get-ClusterParameter

キャッシュ ダンプの頻度を変更するには、次のコマンドレットを使用します。 これが 0 に設定されると、イベントの発行が停止されます。

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

ログ チャネル内の Windows イベント

このチャネルには、5 つのイベントが含まれます。 各イベントには、クラスター名と Azure Resource Manager ID が EventData として含まれています。

イベント ID イベントの種類
3000 [サーバー]
3001 ドライブ
3002 体積
3003 仮想マシン
3004 クラスター

サーバー イベント 3000 RenderedDescription 列の値

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

ほとんどの変数は、この JSON 情報でわかりやすく記述されています。 ただし、次の表に、理解が少し難しい変数をいくつか示します。

変数 説明
m_servers サーバー ノードの配列。
m_statusCategory サーバーの正常性状態。
m_status サーバーの状態。 これは、1 つまたは 2 つの値を含むことができる配列です。 最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。

m_statusCategory 変数の値は次のとおりです。

Value 意味
0 Healthy
1 警告
2 Unhealthy
255 その他

m_status 変数の値は次のとおりです。

Value 意味
0 Up
1 [下へ]
2 メンテナンス中
3 参加
4 標準
5 Isolated
6 検疫済み
7 ドレイン中
8 ドレインが完了しました
9 ドレインに失敗しました
0xffff Unknown

ドライブ イベント 3001 RenderedDescription 列の値

ドライブ イベント 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

ボリューム イベント 3002 RenderedDescription 列の値

ボリューム イベント 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

ほとんどの変数は、上記の JSON 情報でわかりやすく記述されています。 ただし、次の表に、理解しづらい変数をいくつか示します。

変数 説明
VolumeList ボリュームの配列。
m_StatusCategory ボリュームの正常性状態。
m_Status ボリュームの状態。 これは、1 つまたは 2 つの値を含むことができる配列です。 最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。

m_statusCategory 変数の値は次のとおりです。

Value 意味
0 Healthy
1 警告
2 Unhealthy
255 その他

m_status 変数の値は次のとおりです。

Value 意味
0 Unknown
1 その他
2 [OK]
3 修復が必要
4 Stressed
5 予測される障害
6 エラー
7 回復不可能なエラー
8 開始中
9 Stopping
10 Stopped
11 サービス中
12 連絡先なし
13 通信の切断
14 Aborted
15 Dormant
16 サポートするエンティティでエラー
17 完了済み
18 電源モード
19 再配置中
0xD002 [下へ]
0xD003 再同期が必要

仮想マシン イベント 3003 RenderedDescription 列の値

仮想マシン イベント 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

クラスター イベント 3004 RenderedDescription 列の値

クラスター イベント 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

収集されるデータの詳細については、「ヘルス サービスの障害」を参照してください。

次のステップ

関連情報については、以下をご覧ください。