信頼性の高い監視およびアラート戦略を設計するための推奨事項

この Power Platform Well-Architected Reliabilityチェックリストの推奨事項に適用されます:

RE:08 ソリューションの正常性指標を測定して公開します。 ワークロード全体、また個々のコンポーネントや主要なフローから、稼働時間やその他の信頼性データを継続的にキャプチャします。

このガイドでは、信頼性の高い監視およびアラート戦略を設計するための推奨事項について説明します。 この戦略を実装すると、運用チームに環境の正常性状態を常に通知し、ワークロードに対して確立された信頼性目標を確実に満たすことができます。

定義

用語 定義
メトリック 一定の間隔で収集される数値。 メトリックは、特定の時点におけるシステムのいくつかの側面を説明します。
リソース ログ システムがシステムの状態に関して生成するデータ。
トレース 要求がサービスとコンポーネントを通過するパスに関する情報を提供するデータ。

主要な設計戦略

監視およびアラート戦略を作成する前に、信頼性計画の一環としてワークロードに対して次のタスクを実行します。

監視およびアラート戦略を作成して運用チームに認識を提供し、ワークロードの状態の変化を通知して問題を迅速に解決できるようにします。 クリティカル フローおよびクリティカル フローを含むワークロードの正常性モデルでは、正常状態、劣化状態、および異常状態を定義する必要があります。 これらの状態の変化をすぐにキャッチできるように監視体制を設計します。 ヘルス状態が健全から劣化または異常に変化した場合、アラート メカニズムで自動復旧措置をトリガーし、担当チームにアラートを送信する必要があります。

ビジネスの要件を満たす監視およびアラート戦略を設計するには、次の推奨事項を実装してください。

一般的なガイダンス

メトリックログ、およびトレースの違いを理解します。

すべてのクラウド リソースのログを有効にします。 導入で自動化とガバナンスを使用して、環境全体で診断ログを有効にします。

すべての診断ログを、Log Analytics ワークスペースなどの集中データ シンクおよび分析プラットフォームに転送します。 地域のデータ主権要件がある場合は、その要件の対象となる地域でローカル データ シンクを使用する必要があります。

トレードオフ: ログの保存とクエリにはコストがかかります。 ログの分析と保持が予算にどのような影響を与えるかに注目し、要件を満たす最適な使用バランスを決定します。

ワークロードが 1 つ以上のコンプライアンス フレームワークの対象となる場合、機密情報を処理するコンポーネント ログの一部もそれらのフレームワークの対象になります。 関連するコンポーネント ログを、 Microsoft Sentinel などのセキュリティ情報および イベント管理 (SIEM) システムに送信します。

コンプライアンス フレームワークがワークロードに課す長期保有要件を組み込んだログ保有ポリシーを作成します。

ログ データのクエリを最適化するには、すべてのログ メッセージに構造化されたログを使用します。

緑から黄や赤のように、値が正常性モデルの状態の変化に関連するクリティカルしきい値を超えたときにトリガーされるようにアラートを構成します。 しきい値の設定は、継続的な改善のプラクティスです。 ワークロードが進化するにつれて、定義したしきい値が変わる可能性があります。

運用チームが将来の参照用にこれらのイベントを追跡できるように、状態が改善した場合 (赤から黄や赤から緑など) にアラートを使用することを検討してください。

カスタム ダッシュボードを使用して、環境のリアルタイム正常性を視覚化します。

インシデント発生時に収集されたデータを使用して、正常性モデルを継続的に改善します。

プラットフォーム レベルの正常性などの、クラウド プラットフォームの監視およびアラート サービスを組み込みます。

Azure Monitor インサイト ツールなど、クラウド プロバイダーが提供する専用の高度な監視と分析を組み込みます。

次の情報を取得するためにバックアップと復旧の監視を実装します。

  • ワークロードがターゲットの復旧ポイント目標 (RPO) 内で復旧を達成できるようにするためのデータ レプリケーション ステータス。
  • バックアップと復旧の成功と失敗。
  • ディザスター リカバリー計画の報告に必要な復旧期間。

アプリケーションと副操縦士を監視する

アプリケーションまたはコパイロットが本番環境で実行されている間にデータをログに記録します 環境。 運用状態における問題の原因を診断するには、十分な情報が必要です。

サービス境界でのイベントをログに記録します。 サービス境界を越えて流れる関連付け ID を含めます。 トランザクションが複数のサービスを経由して流れ、そのうちの 1 つが失敗した場合、関連付け ID を使用すると、アプリケーション全体の要求を追跡し、トランザクションが失敗した理由を正確に特定できます。

アプリケーションとコパイロットのログ記録を監査から分離します。 監査記録は通常、コンプライアンスまたは規制要件のために保持され、完全である必要があります。 トランザクションのドロップを回避するには、監査ログを診断ログとは別に管理します。

ホワイト ボックス モニタリングを使用して、セマンティック ログとメトリックを使用してアプリケーションまたはコパイロットを計測します。 アプリケーションまたはコパイロットから、メモリ消費量やリクエストのレイテンシなどのアプリケーションレベルおよびコパイロットレベルのメトリックとログを収集し、ヘルスモデルに通知して問題を検出および予測します。

ブラック ボックス モニタリングを使用して、プラットフォーム サービスとその結果生じる顧客エクスペリエンスを測定します。 ブラック ボックス モニタリングは、システムの内部を知らなくても、外部から見えるアプリケーションまたは副操縦士の動作をテストします。 このアプローチは、顧客中心のサービス レベル指標 (SLI)、サービス レベル目標 (SLO)、およびサービス レベル契約 (SLA) を測定する場合によく使用されます。

データとストレージの監視

ストレージ コンテナーの可用性メトリックを監視します。 このメトリックが 100% を下回った場合、書き込みが失敗したことを示します。 可用性の一時的な低下は、クラウド プロバイダーで負荷を管理する場合に発生する可能性があります。 可用性の傾向を追跡して、ワークロードに問題があるかどうかを判断します。 場合によっては、ストレージ コンテナーの可用性メトリックの低下は、ストレージ コンテナーに関連付けられているコンピューティング レイヤーのボトルネックを示していることがあります。

データベースを監視するためのメトリックは多数あります。 信頼性の観点から、監視すべき重要な指標には次のものがあります。

  • クエリ期間
  • タイムアウト
  • 待機時間
  • メモリ不足
  • ロック

Power Platform の促進

Power Platform は、Azure Monitor エコシステムの一部である Application Insights と統合します。 このアプリケーションを使用して、次のことができます。

  • アプリケーションが Dataverse データベースおよびモデル駆動型アプリ内で実行する診断、パフォーマンス、操作に関する Application Insights の Dataverse プラットフォーム によってキャプチャされたテレメトリを受信するようにサブスクライブします。 このテレメトリは、エラーとパフォーマンスに関連する問題の診断とトラブルシューティングに使用できる情報を提供します。

  • キャンバスアプリから Application Insights に接続して、これらの分析を使用して問題を診断し、ユーザーが実際にアプリで何をしているかを把握し、より適切なビジネス上の意思決定を促進し、アプリの品質を向上させることができます。

  • Power Automate テレメトリ を Application Insights へとフローするように構成します。 このテレメトリを、クラウド フローの実行を監視し、クラウド フローの実行失敗に関するアラートを作成できます。

  • Azureで使用するために、 Microsoft Copilot Studio copilot からテレメトリ データをキャプチャします Application Insights。 このテレメトリを使用すると、コパイロットとの間で送受信されるログに記録されたメッセージとイベント、ユーザーの会話中にトリガーされるトピック、トピックから送信できるカスタム テレメトリ イベントを監視できます。

Power Platform リソースは、 Microsoft Purviewコンプライアンス ポータルにアクティビティを記録します。 ほとんどのイベントはアクティビティの 24 時間以内に利用可能になります。 この情報をリアルタイム監視に使用しないでください。 Power Platform でのログ活動についての情報は、次を参照してください。

Power Platform ワークロードに Azure リソースを含めることができます。 Azure リソースの監視に関する推奨事項の詳細については、監視システムの設計と作成に関する推奨事項を参照してください。

Power PlatformCoE スターター キットは、Power Platform の採用とサポートのための戦略開発に役立つように設計されたコンポーネントおよびツールのコレクションを含む参照実装です。 キットは、チームが CoE をサポートするために必要な監視と自動化を構築するのに役立つ自動化とツールを提供します。

オンライン サービスの健全性を確認するにはどうすればよいですか?

信頼性チェックリスト

完全なレコメンデーションのセットを参照してください。