可用性の監視と容量計画について理解する

完了

最高の対象外性を備えたオンライン サービスであっても、効果的に運用するためにはリソースが必要です。 これは、予期せず高い需要が Microsoft Online Services の可用性に影響を与える可能性がある緊急時に特に当てはまります。 Microsoft では、広範な可用性の監視と頻繁な容量計画を使用して、緊急の状況でもサービスをお客様が利用できるようにしています。

可用性の監視

Microsoft では、すべてのオンライン サービスが最適に実行するために必要なリソースを確保するために、広範な可用性監視を実装しています。 サービス チームは、自動ログとテレメトリ分析を使用して、待機中のエンジニアに可用性の問題を警告します。 たとえば、サービス チームはサービスの正常性を脅かす可能性があるスパイクがあるか、プロセッサとメモリ使用率を監視します。 サービス チームは、一般提供の監視に加えて、サービスの性質に基づいて適切な可用性メトリックも選択します。 たとえば、SharePoint Online (SPO) はホームページの可用性や、ドキュメントがアップロードやダウンロードできるかなどの主要な顧客機能を監視します。

多くの場合、サービスは、追加のリソースをプロビジョニングしたり、影響を受けていないサービス コンポーネントにトラフィックを再ルーティングしたりすることで、可用性を脅かす問題に自動的に対応します。 サービス チームのエンジニアが警告に対処するには、根底にある問題を調査して解決します。 セキュリティ インシデントの可能性を示す可用性の問題は、セキュリティ インシデント対応プロセスを使用して解決するためにワークロード固有のセキュリティ対応チームにエスカレートされます。

キャパシティ プランニング

容量計画は、サービス チームが Microsoft Online Services の可用性をサポートするために必要なリソースを割り当てるのに役立ちます。 フェールオーバーの一貫性を確保する Microsoft の ERCM プログラムの一部として、定期的な容量計画が必要です。 サービス チームは四半期のレビュー時および追加のキャパシティ レビューが必要とされる緊急時に、キャパシティのデータをレビューします。

容量計画の生データは、各サービス チームによって管理され、システム処理、メモリ、ハードウェア容量などのメトリックが含まれます。 スケジュールされたレビューはシステムの現在の容量のモデルを使用し、緊急時のニーズに照らしてテストします。 モデルにおいてキャパシティにギャップが示された場合、システム キャパシティへの変更の提案が、レビューのためにサービス チーム リーダーシップに送信されます。 承認された変更は、実装前にサービスチームのエンジニアによって新しいモデルに組み込まれます。

キャパシティプランニングの一環として、各サービス チームは、キャパシティ プロジェクト マネージャー (PM) を指定します。キャパシティ PM はパフォーマンス データの収集とシステム容量の正確なモデルの保守を担当します。 キャパシティ PM は、四半期ごとのキャパシティ レビューを調整するだけでなく、可用性の監視に関する自動アラートの主な連絡窓口になります。 キャパシティ PM は、適切なサービス チームの担当者が通知を受けて可用性に関する問題に迅速に対応できるようにします。

詳細情報