Lista de verificação de revisão de design para confiabilidade
Esta lista de verificação apresenta um conjunto de recomendações para você usar para avaliar as estratégias de confiabilidade, resiliência e recuperação de falhas em seu design de arquitetura. Para garantir a confiabilidade, identifique a melhor infraestrutura e design de aplicativo para sua carga de trabalho. Tome essas decisões com base em seus requisitos de negócios mapeados para métricas de destino de disponibilidade e capacidade de recuperação.
Para implementar um design confiável, considere completamente os pontos de decisão em seu design e esteja ciente de como essas decisões afetam sua carga de trabalho. Essa lista de verificação e os guias que acompanham fornecem recursos para ajudá-lo a tomar essas decisões. Torne a confiabilidade da carga de trabalho uma consideração central em todo o ciclo de vida de design, desenvolvimento e operação da carga de trabalho.
Lista de verificação
Aborde seu design com foco na confiabilidade para ajudar a garantir que você projete uma carga de trabalho resiliente, gerenciável e repetível. Se você não incluir práticas de confiabilidade e considerar as compensações, seu design estará potencialmente em risco. Considere cuidadosamente todos os pontos abordados na lista de verificação para incutir confiança no sucesso do sistema.
Código | Recomendação | |
---|---|---|
☐ | RE:01 | Projete sua carga de trabalho para se alinhar aos objetivos de negócios e evitar complexidade ou sobrecarga desnecessárias. Use uma abordagem prática e equilibrada para tomar decisões de design que fornecem os resultados desejados. Contenha seu design para as necessidades para reduzir ineficiências e possíveis problemas. |
☐ | RE:02 | Identifique e classifique os fluxos do usuário e do sistema. Use uma escala de criticalidade com base em seus requisitos de negócios para priorizar os fluxos. |
☐ | RE:03 | Use a FMA (análise de modo de falha) para identificar e priorizar possíveis falhas nos componentes da solução. Execute o FMA para ajudá-lo a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e se recupera. |
☐ | RE:04 | Defina os destinos de confiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize as metas para negociar, obter consenso, definir expectativas e impulsionar ações para alcançar o estado ideal. Use os destinos definidos para criar o modelo de integridade. O modelo de integridade define como são os estados íntegros, degradados e não íntegros. |
☐ |
RE:05 RE:05 RE:05 |
Adicione redundância em diferentes níveis, especialmente para fluxos críticos. Aplique redundância às camadas de computação, dados, rede e outras camadas de infraestrutura de acordo com as metas de confiabilidade identificadas. |
☐ |
RE:06 RE:06 |
Implemente uma estratégia de dimensionamento oportuna e confiável nos níveis de aplicativo, dados e infraestrutura. |
☐ |
RE:07 RE:07 RE:07 |
Fortaleça a resiliência e a capacidade de recuperação de sua carga de trabalho implementando medidas de autopreservação e autorrecuperação. Crie recursos na solução usando padrões de confiabilidade baseados em infraestrutura e padrões de design baseados em software para lidar com falhas de componente e erros transitórios. Crie recursos no sistema para detectar falhas no componente da solução e iniciar automaticamente a ação corretiva enquanto a carga de trabalho continua operando com funcionalidade completa ou reduzida. |
☐ | RE:08 | Teste cenários de resiliência e disponibilidade aplicando os princípios da engenharia de caos em seus ambientes de teste e produção. Use o teste para garantir que sua implementação normal de degradação e estratégias de dimensionamento sejam eficazes executando o mau funcionamento ativo e o teste de carga simulado. |
☐ | RE:09 | Implemente planos de BCDR (continuidade dos negócios e recuperação de desastres) estruturados, testados e documentados que se alinham com as metas de recuperação. Os planos devem abranger todos os componentes e o sistema como um todo. |
☐ | RE:10 | Medir e modelar os sinais de integridade da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos de chave. |
Próximas etapas
Recomendamos que você examine as compensações de confiabilidade para explorar outros conceitos.