異常の管理

この記事は、FinOps Framework 内での異常の管理機能と、それを Microsoft Cloud で実装する方法を理解するのに役立ちます。


定義

異常の管理とは、異常または予期しないコストと使用パターンをタイムリーに検出して対処する方法を指します。

自動ツールを使用して異常を検出し、関係者に通知します。 使用状況の傾向を定期的に確認して、自動化されたツールが見逃す可能性がある異常を明らかにします。

異常の根本原因を明らかにするには、アプリケーションの動作、リソース使用率、およびリソース構成の変更を調査します。

異常検出、分析、および解決に対する体系的なアプローチにより、組織は予算やビジネスの運営に影響を与える予期しないコストを最小限に抑えることができます。 さらに、コスト データから表面化する可能性のあるセキュリティと信頼性に関するインシデントを特定して防止することもできます。


作業の開始

初めてクラウドでコストの管理を開始するときは、、ポータルで利用可能なネイティブ ツールを使用します。

  • プロアクティブ アラートから始めます。
    • 環境内の各サブスクリプションの異常アラートをサブスクライブして 過去の使用状況に基づいて正規化された使用状況で異常なスパイクまたはドロップが検出されたときに電子メール アラートを受信します。
    • スケジュールされたアラートをサブスクライブして、最近のコスト傾向のグラフを関係者と共有することを検討します。 時間の経過とともにコストが変化し、異常モデルが見逃す可能性がある変更をキャッチする可能性があるため、認識を促進するのに役立ちます。
    • その特定のスコープまたはワークロードを追跡するには、Cost Management で予算 作成することを検討。 フィルターを指定し、よりきめ細かいターゲット設定を行うために実績および予測のコストの両方に対してアラートを設定します。
  • コストの詳細な内訳、使用状況分析、視覚化を使用して、コストを定期的に確認し、見逃される可能性がある潜在的な異常を特定します。
  • 異常が特定されたら、それに対処するための適切なアクションを実行します。
    • 関連するクラウド リソースを管理するエンジニアと共に異常の詳細を確認します。 自動検出された "異常" の一部は、クラウド サービスの構築と管理の一環として計画されているか、少なくとも既知のリソース構成変更です。
    • さらに下位レベルの使用状況の詳細が必要な場合は、Azure Monitor メトリックのリソース使用率を確認します。
    • リソースの詳細が必要な場合は、Azure Resource Graph でのリソース構成変更を確認します。

基本操作に慣れたら

この時点で、自動アラートは構成されています。定期的なチェックを効率化するためにビューとレポートが保存されていることが理想的です。

  • 次のような KPI を確立して自動化します。
    • 月または四半期ごとの異常の数。
    • 月または四半期ごとの異常による総コストへの影響
    • 異常を検出して解決するための応答時間。
    • 偽陽性と偽陰性の数。
  • 異常検出と対応プロセスの対象範囲を拡大し、すべてのコストを含めます。
  • 異常が検出されたときに対応プロセスをガイドするワークフローを定義、文書化、自動化します。
  • 継続的な学習、イノベーション、コラボレーションの文化を育みます。
    • フィードバック、業界のベスト プラクティス、および新しいテクノロジに基づいて、異常管理プロセスを定期的にレビューし、改善します。
    • 知識共有と部門間コラボレーションを促進して、異常検出と対応機能の継続的な改善を推進します。

FinOps Foundation で詳細を確認する

この機能は、FinOps Foundation による FinOps Framework の一部であり、クラウド のコスト管理と最適化の推進に特化した非営利組織です。 便利なプレイブック、トレーニングと認定プログラムなど、FinOps の詳細については、FinOps Framework ドキュメントの異常の管理機能に関する記事を参照してください。

関連動画は、FinOps Foundation YouTube チャンネルでも見つけることができます。


関連する FinOps 機能:

関連製品:

関連するソリューション: