はじめに

完了

クラウド コンピューティングにより、これまでよりも信頼性と可用性の高いソフトウェア ソリューションが増えました。 しかし、信頼性と可用性は偶然に発生するものではありません。 これらは慎重に設計された製品であり、継続的な監視を実施することで問題が発生したときに (できれば発生するに) 管理者に警告することが保証されている必要があります。 クラウドに展開されるミッション クリティカルなソリューションでは、監視はソリューション自体と同じくらい重要です。 これがないと、ソリューションがユーザーのニーズに対応しているかどうかがわかりません。

監視にはさまざまな形式があります。 実行中のアプリケーションに対して定期的に ping を実行してまだ実行中であるかどうかを確認するソフトウェア コンポーネントと同じように、簡単なものにすることができます。 また、より複雑に、要求の待機時間 (システムによって処理される前に要求がキューで待機する時間) や CPU 使用率などの主要なメトリックを追跡し続けることもできます。 監視することで、増加したワークロードを処理するために仮想マシンの数を増やしたり、注意を要する条件を管理者に通知したりするなどのアクションをトリガーすることができます。 人間のオペレーターが 24 時間 365 日体制でシステムを監視するのは現実的ではないため、ソフトウェアで監視を自動化します。 このソフトウェアはサード パーティ製のものを利用しても、クラウド プラットフォーム自体にあるものを利用してもかまいません。

このモジュールは、IT システムの動作の監視をテーマとして、これらのシステムのインフラストラクチャとホストされるアプリケーションの両方に関連付けて取り扱います。 まず、自動監視のためのケースを作成し、さらに一般的なアプリケーション パフォーマンス監視 (APM) プラットフォームをいくつか確認します。 次に、メトリックのトピックについて説明します。これは、監視プラットフォームが追跡する必要がある主要な測定値であり、これらのメトリックがシステムの整合性を確保し、効率性と堅牢性を向上させるためにどのように機能するかについて説明します。 最後に、修復計画の概念に取り組みます。これは、パフォーマンスの問題の解決方法と軽減方法を定義するものです。

学習の目的

  • クラウドベースの IT システムで継続的かつ一貫した監視や管理が優先される、主な根拠について説明する
  • 監視の役割を果たす 3 種類の定量的測定について説明する
  • エージェントを利用して情報を収集して報告する、監視プラットフォームのしくみを理解する
  • パフォーマンスを分析するためにサービス ログなどの既存の情報ソースに依存する、監視プラットフォームのしくみを理解する
  • 監視に最も役立つメトリックについて理解する
  • 測定値を使用してパフォーマンス レベルを判断する方法について学習する
  • 問題のチケット発行の正当な理由について説明する
  • KPI とは何か、およびそれらのメトリックの違いについて説明する
  • "日常的な修復" の概念について説明する

前提条件

  • クラウド サービス モデルや一般的なクラウド プロバイダーなど、クラウド コンピューティングの概要を理解する
  • IaaS、PaaS、SaaS などのクラウド サービス モデルを把握し、それらを区別する
  • CapEx や OpEx など、組織の IT コストのさまざまな種類についてよく理解している
  • クラウド リソース プロビジョニングのしくみを理解する