信頼性の高い監視およびアラート戦略を設計するための推奨事項

[アーティクル]
10/16/2024

この Power Platform Well-Architected Reliabilityチェックリストの推奨事項に適用されます:

RE:08	ソリューションの正常性指標を測定して公開します。ワークロード全体、また個々のコンポーネントや主要なフローから、稼働時間やその他の信頼性データを継続的にキャプチャします。

このガイドでは、信頼性の高い監視およびアラート戦略を設計するための推奨事項について説明します。この戦略を実装すると、運用チームに環境の正常性状態を常に通知し、ワークロードに対して確立された信頼性目標を確実に満たすことができます。

定義

用語	定義
メトリック	一定の間隔で収集される数値。メトリックは、特定の時点におけるシステムのいくつかの側面を説明します。
リソースログ	システムがシステムの状態に関して生成するデータ。
トレース	要求がサービスとコンポーネントを通過するパスに関する情報を提供するデータ。

主要な設計戦略

監視およびアラート戦略を作成する前に、信頼性計画の一環としてワークロードに対して次のタスクを実行します。

重要なフローと重要でないフローを特定します。
フローに故障モード解析 (FMA) を実行します。
信頼性の目標を特定します。
堅牢なテスト戦略を設計します。

監視およびアラート戦略を作成して運用チームに認識を提供し、ワークロードの状態の変化を通知して問題を迅速に解決できるようにします。クリティカルフローおよびクリティカルフローを含むワークロードの正常性モデルでは、正常状態、劣化状態、および異常状態を定義する必要があります。これらの状態の変化をすぐにキャッチできるように監視体制を設計します。ヘルス状態が健全から劣化または異常に変化した場合、アラートメカニズムで自動復旧措置をトリガーし、担当チームにアラートを送信する必要があります。

ビジネスの要件を満たす監視およびアラート戦略を設計するには、次の推奨事項を実装してください。

一般的なガイダンス

メトリック、ログ、およびトレースの違いを理解します。

すべてのクラウドリソースのログを有効にします。導入で自動化とガバナンスを使用して、環境全体で診断ログを有効にします。

すべての診断ログを、Log Analytics ワークスペースなどの集中データシンクおよび分析プラットフォームに転送します。地域のデータ主権要件がある場合は、その要件の対象となる地域でローカルデータシンクを使用する必要があります。

トレードオフ: ログの保存とクエリにはコストがかかります。ログの分析と保持が予算にどのような影響を与えるかに注目し、要件を満たす最適な使用バランスを決定します。

ワークロードが 1 つ以上のコンプライアンスフレームワークの対象となる場合、機密情報を処理するコンポーネントログの一部もそれらのフレームワークの対象になります。関連するコンポーネントログを、 Microsoft Sentinel などのセキュリティ情報およびイベント管理 (SIEM) システムに送信します。

コンプライアンスフレームワークがワークロードに課す長期保有要件を組み込んだログ保有ポリシーを作成します。

ログデータのクエリを最適化するには、すべてのログメッセージに構造化されたログを使用します。

緑から黄や赤のように、値が正常性モデルの状態の変化に関連するクリティカルしきい値を超えたときにトリガーされるようにアラートを構成します。しきい値の設定は、継続的な改善のプラクティスです。ワークロードが進化するにつれて、定義したしきい値が変わる可能性があります。

運用チームが将来の参照用にこれらのイベントを追跡できるように、状態が改善した場合 (赤から黄や赤から緑など) にアラートを使用することを検討してください。

カスタムダッシュボードを使用して、環境のリアルタイム正常性を視覚化します。

インシデント発生時に収集されたデータを使用して、正常性モデルを継続的に改善します。

プラットフォームレベルの正常性などの、クラウドプラットフォームの監視およびアラートサービスを組み込みます。

Azure Monitor インサイトツールなど、クラウドプロバイダーが提供する専用の高度な監視と分析を組み込みます。

次の情報を取得するためにバックアップと復旧の監視を実装します。

ワークロードがターゲットの復旧ポイント目標 (RPO) 内で復旧を達成できるようにするためのデータレプリケーションステータス。
バックアップと復旧の成功と失敗。
ディザスターリカバリー計画の報告に必要な復旧期間。

アプリケーションと副操縦士を監視する

アプリケーションまたはコパイロットが本番環境で実行されている間にデータをログに記録します環境。運用状態における問題の原因を診断するには、十分な情報が必要です。

サービス境界でのイベントをログに記録します。サービス境界を越えて流れる関連付け ID を含めます。トランザクションが複数のサービスを経由して流れ、そのうちの 1 つが失敗した場合、関連付け ID を使用すると、アプリケーション全体の要求を追跡し、トランザクションが失敗した理由を正確に特定できます。

アプリケーションとコパイロットのログ記録を監査から分離します。監査記録は通常、コンプライアンスまたは規制要件のために保持され、完全である必要があります。トランザクションのドロップを回避するには、監査ログを診断ログとは別に管理します。

ホワイトボックスモニタリングを使用して、セマンティックログとメトリックを使用してアプリケーションまたはコパイロットを計測します。アプリケーションまたはコパイロットから、メモリ消費量やリクエストのレイテンシなどのアプリケーションレベルおよびコパイロットレベルのメトリックとログを収集し、ヘルスモデルに通知して問題を検出および予測します。

ブラックボックスモニタリングを使用して、プラットフォームサービスとその結果生じる顧客エクスペリエンスを測定します。ブラックボックスモニタリングは、システムの内部を知らなくても、外部から見えるアプリケーションまたは副操縦士の動作をテストします。このアプローチは、顧客中心のサービスレベル指標 (SLI)、サービスレベル目標 (SLO)、およびサービスレベル契約 (SLA) を測定する場合によく使用されます。

データとストレージの監視

ストレージコンテナーの可用性メトリックを監視します。このメトリックが 100% を下回った場合、書き込みが失敗したことを示します。可用性の一時的な低下は、クラウドプロバイダーで負荷を管理する場合に発生する可能性があります。可用性の傾向を追跡して、ワークロードに問題があるかどうかを判断します。場合によっては、ストレージコンテナーの可用性メトリックの低下は、ストレージコンテナーに関連付けられているコンピューティングレイヤーのボトルネックを示していることがあります。

データベースを監視するためのメトリックは多数あります。信頼性の観点から、監視すべき重要な指標には次のものがあります。

クエリ期間
タイムアウト
待機時間
メモリ不足
ロック

Power Platform の促進

Power Platform は、Azure Monitor エコシステムの一部である Application Insights と統合します。このアプリケーションを使用して、次のことができます。

アプリケーションが Dataverse データベースおよびモデル駆動型アプリ内で実行する診断、パフォーマンス、操作に関する Application Insights の Dataverse プラットフォームによってキャプチャされたテレメトリを受信するようにサブスクライブします。このテレメトリは、エラーとパフォーマンスに関連する問題の診断とトラブルシューティングに使用できる情報を提供します。
キャンバスアプリから Application Insights に接続して、これらの分析を使用して問題を診断し、ユーザーが実際にアプリで何をしているかを把握し、より適切なビジネス上の意思決定を促進し、アプリの品質を向上させることができます。
Power Automate テレメトリを Application Insights へとフローするように構成します。このテレメトリを、クラウドフローの実行を監視し、クラウドフローの実行失敗に関するアラートを作成できます。
Azureで使用するために、 Microsoft Copilot Studio copilot からテレメトリデータをキャプチャします Application Insights。このテレメトリを使用すると、コパイロットとの間で送受信されるログに記録されたメッセージとイベント、ユーザーの会話中にトリガーされるトピック、トピックから送信できるカスタムテレメトリイベントを監視できます。

Power Platform リソースは、 Microsoft Purviewコンプライアンスポータルにアクティビティを記録します。ほとんどのイベントはアクティビティの 24 時間以内に利用可能になります。この情報をリアルタイム監視に使用しないでください。 Power Platform でのログ活動についての情報は、次を参照してください。

Power Platform ワークロードに Azure リソースを含めることができます。 Azure リソースの監視に関する推奨事項の詳細については、監視システムの設計と作成に関する推奨事項を参照してください。

Power PlatformCoE スターターキットは、Power Platform の採用とサポートのための戦略開発に役立つように設計されたコンポーネントおよびツールのコレクションを含む参照実装です。キットは、チームが CoE をサポートするために必要な監視と自動化を構築するのに役立つ自動化とツールを提供します。

オンラインサービスの健全性を確認するにはどうすればよいですか?

信頼性チェックリスト

完全なレコメンデーションのセットを参照してください。

信頼性チェックリスト

次の方法で共有

信頼性の高い監視およびアラート戦略を設計するための推奨事項

主要な設計戦略

一般的なガイダンス

アプリケーションと副操縦士を監視する

データとストレージの監視

Power Platform の促進

信頼性チェックリスト

フィードバック

その他のリソース

次の方法で共有

信頼性の高い監視およびアラート戦略を設計するための推奨事項

主要な設計戦略

一般的なガイダンス

アプリケーションと副操縦士を監視する

データとストレージの監視

Power Platform の促進

関連情報

信頼性チェックリスト

フィードバック

その他のリソース