Lista de verificação de revisão de design para Excelência Operacional

Esta lista de verificação apresenta um conjunto de recomendações para ajudá-lo a criar uma cultura de excelência operacional. Comece com uma abordagem de DevOps para integrar especializações de várias disciplinas. Essa abordagem cria uma prática rigorosa de design e desenvolvimento. Essa abordagem leva a implantações repetíveis, confiáveis e seguras de infraestrutura e código.

Priorize a intervenção humana em áreas que se beneficiam dela e incorpore automação em outras áreas. A observabilidade atende à excelência operacional monitorando eventos de integridade e também para validar o design e a implementação da carga de trabalho atual para informar o desenvolvimento futuro do produto.

Se você não considerar compensações e recomendações para excelência operacional, sua carga de trabalho poderá estar em risco. Considere cuidadosamente os pontos abordados na lista de verificação a seguir para incutir confiança no sucesso do seu design.

Lista de verificação

  Código Recomendação
OE:01 Determine as especializações dos membros da equipe de carga de trabalho e integre-as a um conjunto robusto de práticas para projetar, desenvolver, implantar e operar sua carga de trabalho para especificar. Os membros da equipe devem ter clareza na tomada de decisões e responsabilidades, valorizar a melhoria e a otimização contínuas e adotar uma cultura irrepreensável que incorpore o aprendizado contínuo.
OE:02 Formalize a maneira como você executa tarefas operacionais de rotina, conforme necessário e de emergência usando documentação, listas de verificação ou automação. Busque consistência e previsibilidade para processos de equipe e entregas adotando práticas e abordagens líderes do setor, como uma abordagem de mudança para a esquerda .
OE:03 Formalizar processos de planejamento e ideação de software. Extraia dos padrões organizacionais e do setor estabelecidos. Use uma lista de pendências comum e priorizada e especificações suficientemente detalhadas. Com base nos resultados, impulsione melhorias contínuas em seu processo de planejamento.
OE:04
OE:04
OE:04
Otimize os processos de desenvolvimento de software e garantia de qualidade seguindo práticas comprovadas pelo setor para desenvolvimento e teste. Para designação de função inequívoca, padronizar práticas entre componentes como ferramentas, controle do código-fonte, padrões de design de aplicativo, documentação e guias de estilo.
OE:05 Prepare recursos e suas configurações usando uma abordagem de IaC (infraestrutura como código) padronizada. Como outros códigos, crie IaC com estilos consistentes, modularização apropriada e garantia de qualidade. Prefira uma abordagem declarativa quando possível.
OE:06 Crie uma cadeia de fornecimento de carga de trabalho que conduz as alterações propostas por meio de pipelines automatizados previsíveis. Os pipelines testam e promovem essas alterações entre ambientes. Otimize uma cadeia de suprimentos para tornar sua carga de trabalho confiável, segura, econômica e com desempenho.
OE:07
OE:07
Crie e implemente um sistema de monitoramento para validar as opções de design e informar decisões futuras de design e negócios. Esse sistema captura e expõe telemetria operacional, métricas e logs que emitem da infraestrutura e do código da carga de trabalho.
OE:08 Desenvolva uma prática eficaz de operações de emergência. Verifique se sua carga de trabalho emite sinais de integridade significativos em infraestrutura e código. Colete os dados resultantes e use-os para gerar alertas acionáveis que geram respostas de emergência por meio de painéis e consultas. Defina claramente as responsabilidades humanas, como rotações de chamada, gerenciamento de incidentes, acesso a recursos de emergência e execução de postmortems.
OE:09 Automatizar todas as tarefas que não se beneficiam do insight e da adaptabilidade da intervenção humana, são altamente processuais e têm uma vida útil que gera um retorno sobre o investimento em automação. Quando possível, escolha software off-the-shelf para automação versus implementações personalizadas. Trate toda a automação da mesma forma que os componentes de carga de trabalho e aplique os pilares Well-Architected Framework ao seu design e implementação.
OE:10 Projete e implemente a automação antecipadamente para operações como problemas de ciclo de vida, inicialização e aplicação de proteção de governança e conformidade. Não tente readequar a automação mais tarde. Escolha os recursos de automação que sua plataforma fornece.
OE:11 Defina claramente as práticas de implantação seguras da carga de trabalho. Enfatize os ideais de métodos de versão pequenos, incrementais e com controle de qualidade. Use padrões de implantação modernos e técnicas progressivas de exposição para controlar o risco. Conta para implantações de rotina e implantações de emergência ou hotfix.
OE:12 Implemente uma estratégia de mitigação de falhas de implantação que resolva problemas inesperados de implantação intermediária com recuperação rápida. Combine várias abordagens, como reversão, desabilitação de recursos ou uso dos recursos nativos do padrão de implantação.

Próximas etapas

Recomendamos que você examine as compensações de Excelência Operacional para explorar outros conceitos.