SRE の概要

完了

このモジュールの最後のユニットでは、SRE の探索に関心がある方向けに今後のお勧めの情報について説明します。

ドキュメントとビデオ

SRE の詳細について最適な情報源は、この主題について書かれた次の 3 冊の書籍です

  1. SRE サイトリライアビリティエンジニアリング―Googleの信頼性を支えるエンジニアリングチーム(「The SRE Book」(SRE ブック) と呼ばれます)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (サイト信頼性ワークブック: 実用的な SRE の実装方法) (「The SRE Workbook」(SRE ワークブック) と呼ばれます)
  3. Seeking SRE: Conversations About Running Production Systems at Scale (SRE の探求: 大規模な運用システムの稼働に関する会話)

(簡単に説明すると、このモジュールの主要作成者は、この 3 冊目のキュレーター/編集者です)

これらの各書籍には、重要な情報が記載されています。

  • SRE ブック: Google が長年かけて SRE をどのように実装してきたかが詳細に説明されています。

  • SRE ワークブック - SRE ブックと対になる書。Google や他の場所で SRE が "何" であるかだけでなく、"方法" や "理由" についてもより詳しく説明されています。

  • Seeking SRE: 他の環境で実装されている方法など、SRE の原点を超えて SRE の世界についてより広範な視点が提供されています。

3 冊のいずれも必ず批評的な視点で読んでください。 これらの本に書かれたすべての内容が自分と組織に適用されるわけではありません。 ある程度時間をかけて、何らかの評価ができる価値があると確信できる情報を特定してください。 記載されているとおり、SRE の業務をサポートできる組織のカルチャと価値の部分と、より困難になりそうな部分を考えてましょう。

映像の方が好みの場合は、SREcon14 カンファレンスで Ben Treynor が行ったトークの「SRE の要点」をご覧ください。 Treynor は、(少なくとも Google の文脈で) SRE が何であるかを適切に説明しています。 このカンファレンス シリーズなどの SRE について話された他のトークのビデオも参考になります。

他の関心を持っている人に話す

SRE について読むことも重要ですが、他の人に話すことの方が重要なことはよくあります。 SRE に関する自分の課題、成功、失敗について議論することは、その主題について微妙なところまで理解するために不可欠です。

SRE コンテンツを特集している会議やカンファレンスは多数あります。 おそらく最も直接的に関連しているものは、USENIX が世界中で開催している SREcon カンファレンスです (免責事項: このモジュールの主要作成者は SREcon の共同創始者の 1 人です)。

ますます多くの SRE コンテンツが、VelocityLISA などのカンファレンスや、DevOps Days などの地方の DevOps カンファレンスで取り上げられるようになっています。 どこであっても、このコンテンツやその主題に関心を持っている人を探してみてください。

職場での第一歩

SRE は "すべてか無か" の提案ではないと覚えておくことが重要です。 SRE を自らの環境に取り込む方法の検討を開始する場合は、SRE の原則とプラクティスを小さなステップに採用することから始められます。

Mikey Dickerson は、United States Digital Service の前身である組織での業務によってよく知られる SRE です。 healthcare.gov を救い出す責任を担っていました。 彼は Maslow の欲求階層に敬意を表して、信頼性の階層を提案しました。 これについては最初の SRE ブックの「プラクティス」セクションで引用されています。

この階層では、まず環境に用意する必要があるのは、機能して信頼できる監視であると提案しています。 皆さんの環境の場合にも、監視を SRE に向けた第一歩にする必要があります。 対象を測定できる場合、それが信頼できるかどうか (または好転しているか悪化しているか) を判断できます。

信頼できる監視プラットフォームを用意できたら、次に進む段階は、職場でサービスを選択することです。 次に、SLI や SLO について話し始めます。 最初は簡単にします。 サービスの SLI と SLO を作成し、監視システムに実装し、SRE のレンズを通して信頼性に注意を向けたときに何が起こるかを確認します。 こうしたステップから開始するのが最適です。