AKS クラスターの正常性を評価する

[アーティクル]
11/27/2023

この記事はシリーズの一部です。概要から始めます。

トリアージプラクティスを開始するには、クラスターとネットワークの全体的な正常性を評価します。

ツール

Azure Kubernetes Service (AKS) クラスターの問題の診断と解決に使用できるツールと機能は多数あります。

Azure portal で、AKS クラスターリソースを選択します。これらのツールと機能は、ナビゲーションウィンドウに表示されます。

問題の診断と解決: このツールを使用すると、クラスター内の問題を特定して解決できます。
リソース正常性: このツールを使用すると、Azure リソースに影響を与える可能性があるサービスの問題を診断し、サポートを得ることができます。このツールでは、リソースの現在および過去の正常性状態に関する情報が提供されます。
Advisor の推奨事項: Azure Advisor は、パーソナライズされたクラウドコンサルタントとして機能し、Azure デプロイを最適化するためのベストプラクティスに従うことをガイドします。 Advisor を使用して、リソース構成と使用状況テレメトリを分析できます。 Advisor は、コスト効率、パフォーマンス、信頼性、およびセキュリティを強化できるようにソリューションを提案します。
ログ: この機能を使用して、Log Analytics ワークスペースに格納されているクラスターログとメトリックにアクセスします。クラスターのログとメトリックを監視および分析して、分析情報を提供し、トラブルシューティングを向上させることができます。

これらのツールと機能を使用して、問題を効果的に診断して解決し、AKS クラスターのデプロイを最適化し、Azure リソースの正常性とパフォーマンスを監視できるようにします。

問題の診断と解決

問題の診断と解決機能では、クラスターに関連するさまざまな問題の特定と解決に役立つ包括的なツールスイートが提供されます。問題に最も関連するトラブルシューティングカテゴリを選択します。

クラスターの正常性を確認するには、以下を選択できます。

クラスターとコントロールプレーンの可用性とパフォーマンス: クラスターの正常性に影響を与えるサービスの可用性または調整の問題があるかどうかを確認します。
接続の問題: クラスターのドメインネームシステム (DNS) の解決に関するエラーがあるか、または送信通信ルートに接続の問題があるかどうかを確認します。

リソース正常性

リソース正常性機能を使用して、クラスターの正常性に影響を与える可能性があるクラスターの問題とサービスの問題を特定し、サポートを受けます。クラスターの正常性を簡単に監視できるように、リソースアラートを設定します。リソース正常性機能では、クラスターの現在および過去の正常性に関するレポートが提供されます。次の 4 つの正常性状態があります。

使用可能: この状態は、クラスターの正常性に影響するイベントが検出されていないことを示します。過去 24 時間以内にクラスターが計画外のダウンタイムから復旧した場合は、"最近解決されました" という通知が表示されます。
使用不可: この状態はクラスターの正常性に影響を与える継続中のプラットフォームまたはプラットフォーム以外のイベントが検出されたことを示します。
不明: この状態は、機能で、リソースに関する情報が 10 分以上受信されていないことを示します。この状態は、通常、仮想マシンの割り当てが解除されたときに表示されます。この状態はリソースの状態を明確に示すものではありませんが、トラブルシューティングに役立つデータポイントである可能性があります。
機能低下: この状態は、クラスターのパフォーマンスは低下しているものの、クラスターはまだ使用可能であることを示します。

次のスクリーンショットは、リソース正常性の概要を示しています。

詳細については、Azure Resource Health の概要に関するページを参照してください。

Advisor

Advisor では、信頼性、セキュリティ、オペレーショナルエクセレンス、パフォーマンス効率について AKS クラスターを最適化するのに役立つ実用的な推奨事項が提供されます。 Advisor を使用して、事前にクラスターのパフォーマンスを向上させ、潜在的な問題を回避できます。クラスターを最適化する方法の詳細については、推奨事項を選択してください。

次のスクリーンショットは、選択した推奨事項のリソースを示しています。

詳細については、Advisor の概要に関するページを参照してください。

Log Analytics

Log Analytics では、クラスターの正常性に関する分析情報が提供されます。 Log Analytics ワークスペースにアクセスするには、AKS クラスターに移動し、ナビゲーションウィンドウで [ログ] を選択します。

定義済みのクエリを選択して、クラスターの正常性を分析できます。

組み込みのクエリを使用して、Log Analytics ワークスペースで収集されたログとメトリックに対してクエリを実行します。次のリストでは、可用性、コンテナーログ、診断カテゴリの一部のクエリの機能について説明します。

可用性
- ノードごとの準備状態クエリ: 準備状態別にクラスター内のすべてのノードの数を表示します。
- フェーズですべてのポッド数を一覧表示するクエリ: 失敗、保留中、不明、実行中、成功など、フェーズごとにすべてのポッドの数を表示します。
コンテナーログ
- コンテナーログテーブルで値を検索するクエリ: LogEntry に指定された文字列パラメーターがある ContainerLogs テーブルで行を検索します。
- 名前空間ごとにコンテナーログを一覧表示するクエリ: クラスター内の名前空間のコンテナーログを表示します。
診断
- クラスターオートスケーラーログ クエリ: クラスターオートスケーラーからのログに対してクエリを実行します。このクエリでは、クラスターが予期せずスケールアップまたはスケールダウンする理由に関する情報を提供できます。
- Kubernetes API サーバーログ クエリ: Kubernetes API サーバーからのログに対してクエリを実行します。
- イメージインベントリ クエリ: すべてのコンテナーイメージとその状態を一覧表示します。
- ノードごとの 1 秒あたりの Prometheus ディスク読み取りクエリ: 既定の Kubernetes 名前空間からの Prometheus ディスク読み取りメトリックを時間グラフとして表示します。
- インスタンスの平均 CPU 使用率の増加クエリ: 過去 1 週間のインスタンスごとの平均 CPU 使用率の増加を降順で表示します。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

Paolo Salvatori | プリンシパルカスタマーエンジニア
Francis Simy Nazareth | シニアテクニカルスペシャリスト

その他の共同作成者:

Rong Zhang |　シニアプロダクトマネージャー

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

ノードとポッドの正常性を調べる

次の方法で共有

AKS クラスターの正常性を評価する