Lista de verificação de revisão de design para confiabilidade

Artigo
07/31/2024

Esta lista de verificação apresenta um conjunto de recomendações para você usar para avaliar as estratégias de confiabilidade, resiliência e recuperação de falhas em seu design de arquitetura. Para garantir a confiabilidade, identifique a melhor infraestrutura e design de aplicativo para sua carga de trabalho. Tome essas decisões com base em seus requisitos de negócios mapeados para métricas de destino de disponibilidade e capacidade de recuperação.

Para implementar um design confiável, considere completamente os pontos de decisão em seu design e esteja ciente de como essas decisões afetam sua carga de trabalho. Essa lista de verificação e os guias que acompanham fornecem recursos para ajudá-lo a tomar essas decisões. Torne a confiabilidade da carga de trabalho uma consideração central em todo o ciclo de vida de design, desenvolvimento e operação da carga de trabalho.

Lista de verificação

Aborde seu design com foco na confiabilidade para ajudar a garantir que você projete uma carga de trabalho resiliente, gerenciável e repetível. Se você não incluir práticas de confiabilidade e considerar as compensações, seu design estará potencialmente em risco. Considere cuidadosamente todos os pontos abordados na lista de verificação para incutir confiança no sucesso do sistema.

	Código	Recomendação
☐	RE:01	Projete sua carga de trabalho para se alinhar aos objetivos de negócios e evitar complexidade ou sobrecarga desnecessárias. Use uma abordagem prática e equilibrada para tomar decisões de design que fornecem os resultados desejados. Contenha seu design para as necessidades para reduzir ineficiências e possíveis problemas.
☐	RE:02	Identifique e classifique os fluxos do usuário e do sistema. Use uma escala de criticalidade com base em seus requisitos de negócios para priorizar os fluxos.
☐	RE:03	Use a FMA (análise de modo de falha) para identificar e priorizar possíveis falhas nos componentes da solução. Execute o FMA para ajudá-lo a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e se recupera.
☐	RE:04	Defina os destinos de confiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize as metas para negociar, obter consenso, definir expectativas e impulsionar ações para alcançar o estado ideal. Use os destinos definidos para criar o modelo de integridade. O modelo de integridade define como são os estados íntegros, degradados e não íntegros.
☐	RE:05 RE:05 RE:05	Adicione redundância em diferentes níveis, especialmente para fluxos críticos. Aplique redundância às camadas de computação, dados, rede e outras camadas de infraestrutura de acordo com as metas de confiabilidade identificadas.
☐	RE:06 RE:06	Implemente uma estratégia de dimensionamento oportuna e confiável nos níveis de aplicativo, dados e infraestrutura.
☐	RE:07 RE:07 RE:07	Fortaleça a resiliência e a capacidade de recuperação de sua carga de trabalho implementando medidas de autopreservação e autorrecuperação. Crie recursos na solução usando padrões de confiabilidade baseados em infraestrutura e padrões de design baseados em software para lidar com falhas de componente e erros transitórios. Crie recursos no sistema para detectar falhas no componente da solução e iniciar automaticamente a ação corretiva enquanto a carga de trabalho continua operando com funcionalidade completa ou reduzida.
☐	RE:08	Teste cenários de resiliência e disponibilidade aplicando os princípios da engenharia de caos em seus ambientes de teste e produção. Use o teste para garantir que sua implementação normal de degradação e estratégias de dimensionamento sejam eficazes executando o mau funcionamento ativo e o teste de carga simulado.
☐	RE:09	Implemente planos de BCDR (continuidade dos negócios e recuperação de desastres) estruturados, testados e documentados que se alinham com as metas de recuperação. Os planos devem abranger todos os componentes e o sistema como um todo.
☐	RE:10	Medir e modelar os sinais de integridade da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos de chave.

Próximas etapas

Recomendamos que você examine as compensações de confiabilidade para explorar outros conceitos.

Compensações de confiabilidade

Compartilhar via

Lista de verificação de revisão de design para confiabilidade

Lista de verificação

Próximas etapas

Comentários

Recursos adicionais