Recomendações para um design multirregional altamente disponível

Aplica-se a esta recomendação da lista de verificação de Fiabilidade do Azure Well-Architected Framework:

RE:05 Adicione redundância em diferentes níveis, especialmente para fluxos críticos. Aplique redundância às camadas de computação, dados, rede e outras camadas de infraestrutura de acordo com as metas de confiabilidade identificadas.

Guias relacionados: Redundância | Usando zonas e regiões de disponibilidade

Este guia descreve as recomendações para projetar um ambiente de nuvem multi-região altamente disponível. A alta disponibilidade é um princípio fundamental do design para a confiabilidade. Uma arquitetura altamente disponível pode ajudá-lo a evitar o tempo de inatividade tanto quanto possível e recuperar de forma eficiente se o tempo de inatividade ocorrer.

Ativo-ativo e ativo-passivo são tipos de arquitetura geral que podem ser aplicados de diferentes maneiras, dependendo da plataforma em que você implanta seu ambiente. Este guia se concentra em um design de ambiente de nuvem de várias regiões. No Azure, você também pode projetar uma arquitetura ativa-ativa ou ativa-passiva dentro de uma única região usando zonas de disponibilidade. Para obter orientações detalhadas sobre como projetar uma arquitetura altamente disponível usando zonas de disponibilidade, consulte o guia do Azure Well-Architected Framework.

Principais estratégias de design

Ativo-ativo e ativo-passivo são as duas abordagens fundamentais para projetar um ambiente de nuvem altamente disponível. Os ambientes ativos-ativos são projetados para lidar com cargas de produção em todas as regiões em que você implanta sua carga de trabalho. Os ambientes ativo-passivo são projetados para lidar com cargas de produção apenas na região primária, mas failover para a região secundária (passiva) quando necessário. Selecionar as melhores regiões do Azure para sua carga de trabalho é uma parte fundamental da criação de um ambiente multirregião altamente disponível. Para obter orientação sobre como selecionar regiões do Azure, consulte o guia Selecionar regiões do Azure.

Esta seção descreve as opções de design que você deve considerar ao avaliar cada padrão e refinar sua arquitetura para atender aos requisitos de negócios.

Consulte Padrão de carimbos de implantação para obter orientação sobre como arquitetar sua carga de trabalho de forma repetível e escalável. Esse padrão de design pode ajudá-lo a otimizar seu projeto de alta disponibilidade para um gerenciamento eficiente.

As seções a seguir descrevem as opções de design dos dois padrões.

Implante em ativo-ativo para zero tempo de inatividade

  • Ativo-ativo na capacidade: carimbos de implantação espelhados em duas ou mais regiões do Azure, cada um configurado para lidar com cargas de trabalho de produção para a região ou regiões que atendem e escalável para lidar com cargas de outras regiões em caso de interrupção regional.

    • Rede: use latência ou roteamento global ponderado para distribuir o tráfego entre regiões.

    • Replicação e consistência de dados: use um armazenamento de dados distribuído globalmente, como o Azure Cosmos DB , para recursos de leitura e gravação em várias regiões. Para bancos de dados relacionais, use réplicas legíveis com cadeias de conexão somente leitura.

    • Vantagem deste design: Custos operacionais mais baixos do que um projeto superprovisionado.

    • Desvantagem deste design: Possível degradação da experiência do usuário ao aumentar a escala para atender às demandas de uma carga completa se outra região sofrer uma interrupção.

  • Sobreprovisionado ativo-ativo: carimbos de implantação espelhados em duas ou mais regiões do Azure, cada um superprovisionado para lidar com cargas de trabalho de produção para a região ou regiões que atendem e para lidar com cargas de outras regiões em caso de interrupção regional.

    • Rede: use latência ou roteamento global ponderado para distribuir o tráfego entre regiões.

    • Replicação e consistência de dados: use um armazenamento de dados distribuído globalmente, como o Azure Cosmos DB , para recursos de leitura e gravação em várias regiões. Para bancos de dados relacionais, use réplicas legíveis com cadeias de conexão somente leitura.

    • Vantagem deste design: O design mais resiliente possível.

    • Desvantagem deste design: custos operacionais mais altos do que um design escalável.

  • Vantagens comuns de ambos os projetos: alta resiliência e baixo risco de interrupção total da carga de trabalho.

  • Desvantagens comuns de ambos os projetos: Custos operacionais mais altos e carga de gerenciamento devido a vários fatores, incluindo a necessidade de gerenciar a sincronização do estado do aplicativo e dos dados.

Implante no ativo-passivo para recuperação de desastres

  • Sobressalente quente: Uma região primária e uma ou mais regiões secundárias. A região secundária é implantada com o mínimo possível de computação e dimensionamento de dados e é executada sem carga. Esta região é conhecida como uma região sobressalente quente. Após o failover, os recursos de computação e dados são dimensionados para lidar com a carga da região primária.

    • Rede: use roteamento global prioritário .

    • Replicação e consistência de dados: replique seu banco de dados para sua região passiva e use os recursos de failover automático de soluções de plataforma como serviço (PaaS), como o Azure Cosmos DB e o Banco de Dados SQL do Azure.

    • Vantagem deste design: Menor tempo de recuperação entre os projetos ativo-passivo.

    • Desvantagem deste projeto: Maior custo operacional entre os projetos ativo-passivo.

  • Sobressalente frio: Uma região primária e uma ou mais regiões secundárias. A região secundária é dimensionada para lidar com a carga total, mas todos os recursos de computação são interrompidos. Esta região é conhecida como uma região de reserva fria. Você precisa iniciar os recursos antes do failover.

    • Rede: use roteamento global prioritário .

    • Replicação e consistência de dados: replique seu banco de dados para sua região passiva e use os recursos de failover automático de soluções PaaS, como o Azure Cosmos DB e o Banco de Dados SQL do Azure.

    • Vantagem deste design: Custos operacionais mais baixos do que o design sobressalente quente.

    • Desvantagem deste design: Tempo de recuperação mais longo do que o design sobressalente quente.

  • Reimplantar em caso de desastre: uma região primária e uma ou mais regiões secundárias. Apenas a rede necessária é implantada na região secundária. Os operadores devem executar scripts de provisionamento na região secundária para fazer failover das cargas de trabalho. Esse design é conhecido como reimplantação em caso de desastre.

    • Rede: use roteamento global prioritário .

    • Replicação e consistência de dados: implante novas instâncias de banco de dados e reidrate os dados de backups.

    • Vantagem deste design: Custos operacionais mais baixos.

    • Desvantagem deste design: Maior tempo de recuperação.

  • Vantagens comuns dos projetos ativo-passivo: Custos operacionais mais baixos e menos carga de gerenciamento diária do que os projetos ativos-ativos. Não há necessidade de sincronizar o estado do aplicativo.

  • Desvantagens comuns dos projetos ativo-passivo: processo de recuperação mais longo e complexo. Maior probabilidade de precisar de intervenção manual para um failover bem-sucedido.

Nota

Independentemente do seu design de alta disponibilidade, lembre-se de configurar a redundância para dar suporte a serviços como infraestrutura de DevOps do Azure, caixas de salto, monitoramento e qualquer outro serviço crítico necessário para administrar a carga de trabalho.

Facilitação do Azure

  • O Azure Front Door combina a funcionalidade de roteamento global do Gerenciador de Tráfego do Azure com um sistema de entrega de conteúdo e firewall de aplicativo Web para ajudá-lo a gerenciar sua carga de trabalho de alta disponibilidade.

  • O Azure Cosmos DB é uma plataforma de banco de dados NoSQL distribuída globalmente que pode ajudá-lo a executar um ambiente ativo-ativo e minimizar a chance de tempo de inatividade quando ocorre uma interrupção regional.

Lista de verificação de fiabilidade

Consulte o conjunto completo de recomendações.