異常の管理

[アーティクル]
06/22/2024

この記事は、FinOps Framework 内での異常の管理機能と、それを Microsoft Cloud で実装する方法を理解するのに役立ちます。

定義

異常の管理とは、異常または予期しないコストと使用パターンをタイムリーに検出して対処する方法を指します。

自動ツールを使用して異常を検出し、関係者に通知します。使用状況の傾向を定期的に確認して、自動化されたツールが見逃す可能性がある異常を明らかにします。

異常の根本原因を明らかにするには、アプリケーションの動作、リソース使用率、およびリソース構成の変更を調査します。

異常検出、分析、および解決に対する体系的なアプローチにより、組織は予算やビジネスの運営に影響を与える予期しないコストを最小限に抑えることができます。さらに、コストデータから表面化する可能性のあるセキュリティと信頼性に関するインシデントを特定して防止することもできます。

作業の開始

初めてクラウドでコストの管理を開始するときは、、ポータルで利用可能なネイティブツールを使用します。

プロアクティブアラートから始めます。
- 環境内の各サブスクリプションの異常アラートをサブスクライブして過去の使用状況に基づいて正規化された使用状況で異常なスパイクまたはドロップが検出されたときに電子メールアラートを受信します。
- スケジュールされたアラートをサブスクライブして、最近のコスト傾向のグラフを関係者と共有することを検討します。時間の経過とともにコストが変化し、異常モデルが見逃す可能性がある変更をキャッチする可能性があるため、認識を促進するのに役立ちます。
- その特定のスコープまたはワークロードを追跡するには、Cost Management で予算作成することを検討。フィルターを指定し、よりきめ細かいターゲット設定を行うために実績および予測のコストの両方に対してアラートを設定します。
コストの詳細な内訳、使用状況分析、視覚化を使用して、コストを定期的に確認し、見逃される可能性がある潜在的な異常を特定します。
- コスト分析でスマートビューを使用して、サブスクリプションごとに自動的に検出された異常な分析情報を確認します。
- コスト分析でカスタマイズ可能なビューを使用して、予期しない変更を手動で見つけます。
- 特定のワークロードに対する時間の経過に伴うコストを示すカスタムビューを保存して、時間を節約することを検討します。
- Power BI を使用して、より詳細な使用状況レポートを作成することを検討します。
異常が特定されたら、それに対処するための適切なアクションを実行します。
- 関連するクラウドリソースを管理するエンジニアと共に異常の詳細を確認します。自動検出された "異常" の一部は、クラウドサービスの構築と管理の一環として計画されているか、少なくとも既知のリソース構成変更です。
- さらに下位レベルの使用状況の詳細が必要な場合は、Azure Monitor メトリックのリソース使用率を確認します。
- リソースの詳細が必要な場合は、Azure Resource Graph でのリソース構成変更を確認します。

基本操作に慣れたら

この時点で、自動アラートは構成されています。定期的なチェックを効率化するためにビューとレポートが保存されていることが理想的です。

次のような KPI を確立して自動化します。
- 月または四半期ごとの異常の数。
- 月または四半期ごとの異常による総コストへの影響
- 異常を検出して解決するための応答時間。
- 偽陽性と偽陰性の数。
異常検出と対応プロセスの対象範囲を拡大し、すべてのコストを含めます。
異常が検出されたときに対応プロセスをガイドするワークフローを定義、文書化、自動化します。
継続的な学習、イノベーション、コラボレーションの文化を育みます。
- フィードバック、業界のベストプラクティス、および新しいテクノロジに基づいて、異常管理プロセスを定期的にレビューし、改善します。
- 知識共有と部門間コラボレーションを促進して、異常検出と対応機能の継続的な改善を推進します。

FinOps Foundation で詳細を確認する

この機能は、FinOps Foundation による FinOps Framework の一部であり、クラウドのコスト管理と最適化の推進に特化した非営利組織です。便利なプレイブック、トレーニングと認定プログラムなど、FinOps の詳細については、FinOps Framework ドキュメントの異常の管理機能に関する記事を参照してください。

関連動画は、FinOps Foundation YouTube チャンネルでも見つけることができます。

次の方法で共有

異常の管理

定義

作業の開始

基本操作に慣れたら

FinOps Foundation で詳細を確認する

フィードバック

その他のリソース

次の方法で共有

異常の管理

定義

作業の開始

基本操作に慣れたら

FinOps Foundation で詳細を確認する

関連するコンテンツ

フィードバック

その他のリソース