Návrhy pro provozní tým
Navrhněte aplikaci tak, aby provozní tým měl všechny potřebné nástroje.
Cloud dramaticky změnil roli provozního týmu. Již neodpovídá za správu hardwaru a infrastruktury, na které aplikace hostuje. Ale i tak zůstává provozní tým důležitým faktorem úspěšného provozování cloudové aplikace. Mezi důležité úlohy provozního týmu patří:
- Nasazení
- Monitorování
- Eskalace
- Reakce na incidenty
- Auditování zabezpečení
Robustní protokolování a trasování jsou u cloudové aplikace obzvláště důležité. Zapojte provozní tým do návrhu a plánování, abyste zajistili, že mu aplikace poskytne data a přehledy, které potřebují k úspěchu.
Doporučení
Zajištění sledovatelnosti všech aspektů aplikace. Po nasazení a zprovoznění řešení vám primární vhled do systému budou nabízet protokoly a trasování. Trasování zaznamenává cestu systémem a je užitečné pro odhalení kritických bodů, problémů s výkonem a bodů selhání. Protokolování zachycuje jednotlivé události, jako jsou změny stavu aplikace, chyby a výjimky. Provoz je třeba protokolovat, jinak ztratíte vhled přesně v těch okamžicích, kdy ho potřebujete nejvíce.
Nástroje pro sledování. Sledování poskytuje přehled o tom, jak dobře (nebo špatně) aplikace funguje z hlediska dostupnosti, výkonu a stavu systému. Ze sledování například poznáte, jestli naplňujete svou smlouvu o úrovni služeb (SLA). Sledování probíhá při běžném provozu systému. Mělo by se co nejvíce blížit reálnému času, aby provozní personál mohl rychle reagovat na problémy. Sledování může v ideálním případě přispět k vyřešení problémů, ještě než způsobí kritickou chybu. Další informace najdete v tématu Monitorování a diagnostika.
Nástroj pro analýzu původní příčiny. Analýza původní příčiny je proces hledání základní příčiny selhání. Probíhá poté, co již došlo k selhání.
Použití distribuovaného trasování. Můžete využívat systém distribuované trasování, který je navržen pro zajištění souběžnosti, asynchroničnosti a cloudového škálování. Trasování by měla zahrnovat ID korelace přenášené přes hranice služeb. Jedna operace může zahrnovat volání do více aplikačních služeb. Pokud operace selže, ID korelace usnadní nalezení přesné příčiny selhání.
Standardizace protokolů a metrik. Provozní tým bude potřebovat agregovat protokoly z různých služeb v rámci daného řešení. Pokud každá služba používá vlastní formát protokolování, bude obtížné nebo nemožné z protokolů vytěžit užitečné informace. Definujte společné schéma, které bude obsahovat pole, jako je ID korelace, název události, IP adresa odesílatele atd. Jednotlivé služby můžou odvozovat vlastní schémata, která ale budou dědit základní schéma, která doplní dalšími poli.
Automatizace úloh správy, včetně zřizování, nasazení a monitorování. Automatizací úlohy se zajistí její opakovatelnost a sníží náchylnost k lidským chybám.
Zacházení s konfigurací jako s kódem. Zaregistrujte konfigurační soubory do systému správy verzí, abyste mohli sledovat a spravovat verze změn a mohli se v případě potřeby vrátit k předchozí verzi.