Dokumentation om SRE (Site Reliability Engineering)
Site Reliability Engineering är ett teknikområde som är avsett att hjälpa en organisation att uppnå lämplig nivå av tillförlitlighet i sina system, produkter och tjänster.
Förbättra tillförlitligheten med metoder för modern drift
SRE på Azure
Dokumentation för SRE
Arkitektur
Etablering och leverans
SRE-föreläsningar från Microsoft
Kultur
- The Evolution of Site Reliability Engineering (SRE:s utveckling)
- Bygga SRE: Kultur utifrån in
- Cultural Nuance and Effective Collaboration for Multicultural Teams (Kulturell nyans och effektivt samarbete i mångkulturella team)
- Evolution of SRE and Rising Need of SRE Catalyzers (Utveckling av SRE och ökande behov av SRE-katalysatorer)
- Feedbackslingor: Hur SREs gynnas och vad som behövs för att förverkliga deras potential
- Understanding Business Metrics Can Make You a Better SRE (Du blir en bättre SRE om du förstår affärsmått)
- The Never-Ending Story of Site Reliability (SRE tar aldrig slut)
- Every Day Is Monday in Operations (Alla dagar är måndagar inom drift)
Incident Response and Post-Incident Reviews (Incidenthantering och eftergranskning av incidenter)
Monitoring and Observability (Övervakning och överskådlighet)
- Över 600 miljoner medlemmar och hundratals mikrotjänster: Hur vi skalade vårt övervakningssystem för att hålla jämna
- Utanför den misshandlade vägen: Flytta observerbarhetsfokus från din tjänst till din kund
- You Get What You Measure—Why Metrics Are Important (Du får det du mäter – varför det är viktigt med mått)
- Väder stormen: Hur tidiga varningar sparar gården
- Capturing and Analyzing Millions of Queries without Any Overhead (Samla in och analysera miljontals frågor utan omkostnader)
- Händelsekorrelation: En ny metod för att minska MTTR
- How Robust Monitoring Powers High Availability for LinkedIn Feed (Hur robust övervakning ger hög tillgänglighet för LinkedIn-feed)
- Minska MTTR och falska eskaleringar: Händelsekorrelation på Linkedin
Practices and Principles (Metoder och principer)
- Availability—Thinking beyond 9s (Tillgänglighet – Mer än bara nior)
- Mental Models for SREs (Mentala modeller för SRE:er)
- Prioritizing Trust While Creating Applications (Prioritera förtroende när du skapar program)
- Java Hates Linux. Deal with It. (Java hatar Linux. Acceptera det och ta itu med problemen.)
- Characterizing and Understanding Phases of SRE Practices (Karakterisera och förstå de olika faserna i SRE-metoder)
- Säkerhet och SRE: Naturliga kraftmultiplikatorer
- Översyn av produktionsförbättring: Ta en bit av reparationsskulden
- Ensuring Reliability of High-Performance Applications (Säkerställa tillförlitligheten för program med höga prestanda)
- The Service Score Card—Gamifying Operational Excellence (Poängkort för tjänster – Gamifiera verksamhetsutveckling)
- How to Improve a Service by Roasting It (Förbättra en tjänst genom att roasta den)
Teams and Management (Team och ledning)
- Kodgul: Hjälpa topptunga team att hantera det smarta sättet
- Ledande utan att hantera: Bli en teknisk SRE-ledare
- Differences in SRE Implementations across Companies (Skillnader i SRE-implementeringar mellan företag)
- 100 Teams, 100 Ways to Fail (100 team, 100 sätt att misslyckas)
- The Why, What, and How of Starting an SRE Engagement (Varför, vad och hur man startar ett SRE-engagemang)
- Building and Running SRE Teams (Skapa och styra SRE-team)
- College Student to SRE: Onboarding Your Entry Level Talent
- LinkedIn SRE: Från start till global skala
- Splicing SRE DNA Sequences in the Biggest Software Company on the Planet (Splitsa ”SRE DNA”-sekvenser i det största programvaruföretaget i världen)
- Transforming Tier 1 Caterpillars to Butterflies (Omvandla larver i frontlinjen till fjärilar)
Tools and Technologies (Verktyg och tekniker)
- Azure SREBot: Mer än en chattrobot – en intelligent robot för att krossa minskningstiden
- TrafficShift: Undvika katastrofer i stor skala
- Let's Build a Distributed File System (Lås oss bygga ett distribuerat filsystem)
- TCP—Architecture, Enhancements, and Tuning (TCP – Arkitektur, förbättringar och finjustering)
- BGP—The Backbone of the Internet (BGP – Internets ryggrad)
- The Ops in Serverless (Drift i serverlösa system)
- How We Used Kafka to Scale Database Infrastructure (Hur vi skalade databasinfrastrukturen med Kafka)
- Nätverk för SRE:er: Vad behöver jag veta för felsökningsprogram
- Ambry—LinkedIn’s Distributed Immutable Object Store (Ambry – LinkedIns distribuerade lagringsplats för oföränderliga objekt)
- BPerf—Bing.com Cloud Profiling on Production (BPerf – Bing.coms molnprofilering i produktion)
- DNS: Gammal lösning för moderna problem
- Traffic Steering using Rum DNS @ LinkedIn (Trafikstyrning med Rum DNS @ LinkedIn )
Skalning
- Traffic Forecasting and Stress Testing Infrastructure (Infrastruktur för trafikprognostisering och belastningstestning)
- Learning at Scale Is Hard! (Lärande i stor skala är svårt!) Outage Pattern Analysis and Dirty Data (mönsteranalys av avbrott och felaktiga data)
- Skala ett distribuerat tillståndskänsligt system: En LinkedIn-fallstudie
- Debugging at Scale—Going from Single Box to Production (Felsökning i stor skala – gå från en förpackning till produktion)
- Building Centralized Caching Infrastructure at Scale (Skapa en centraliserad infrastruktur för cachelagring i stor skala)
- Scalable Coding—Find the Error (Skalbar kodning – hitta felet)
- Managing Capacity @ LinkedIn (Hantera kapacitet @ LinkedIn)
- InStream: Storskalig distribution med BitTorrent, Python, Salt och Kafka
- Avoiding and Breaking Out of Capacity Prison (Undvika och ta sig ur kapacitetsfängelset)
- The Evolution of Global Traffic Routing and Failover (Utvecklingen för global trafikroutning och redundans)