Configure a recuperação de desastres em escala para VMs/servidores físicos VMware

Artigo
09/27/2024

Este artigo descreve como configurar a recuperação de desastres no Azure para um grande número (> 1000) de VMs VMware locais ou servidores físicos em seu ambiente de produção, usando o serviço Azure Site Recovery .

Defina sua estratégia BCDR

Como parte de sua estratégia de continuidade de negócios e recuperação de desastres (BCDR), você define RPOs (Recovery Point Objetives, objetivos de ponto de recuperação) e RTOs (Recovery Time Objetives, objetivos de tempo de recuperação) para seus aplicativos de negócios e cargas de trabalho. O RTO mede a duração do tempo e o nível de serviço dentro do qual um aplicativo ou processo de negócios deve ser restaurado e disponível, a fim de evitar problemas de continuidade.

O Site Recovery fornece replicação contínua para VMs VMware e servidores físicos, além de um SLA para RTO.
Ao planejar a recuperação de desastres em grande escala para VMs VMware e descobrir os recursos do Azure necessários, você pode especificar um valor RTO que será usado para cálculos de capacidade.

Melhores práticas

Algumas práticas recomendadas gerais para recuperação de desastres em grande escala. Essas práticas recomendadas são discutidas em mais detalhes nas próximas seções do documento.

Identificar requisitos de destino: estime as necessidades de capacidade e recursos no Azure antes de configurar a recuperação de desastres.
Planejar componentes de Recuperação de Site: descubra quais componentes de Recuperação de Site (servidor de configuração, servidores de processo) são necessários para atender à capacidade estimada.
Configurar um ou mais servidores de processo de expansão: não use o servidor de processo que está sendo executado por padrão no servidor de configuração.
Execute as atualizações mais recentes: a equipe de Recuperação de Site lança novas versões dos componentes de Recuperação de Site regularmente e você deve certificar-se de que está executando as versões mais recentes. Para ajudar com isso, acompanhe as novidades das atualizações e habilite e instale as atualizações à medida que elas forem lançadas.
Monitore proativamente: à medida que a recuperação de desastres estiver em funcionamento, você deve monitorar proativamente o status e a integridade das máquinas replicadas e dos recursos de infraestrutura.
Exercícios de recuperação de desastres: você deve executar exercícios de recuperação de desastres regularmente. Isso não afeta seu ambiente de produção, mas ajuda a garantir que o failover para o Azure funcione conforme o esperado quando necessário.

Reunir informações de planejamento de capacidade

Reúna informações sobre seu ambiente local para ajudar a avaliar e estimar suas necessidades de capacidade de destino (Azure).

Para VMware, execute o Deployment Planner for VMware VMs para fazer isso.
Para servidores físicos, reúna as informações manualmente.

Execute o planejador de implantação para VMs VMware

O Deployment Planner ajuda você a coletar informações sobre seu ambiente local VMware.

Execute o Planejador de Implantação durante um período que representa a rotatividade típica de suas VMs. Isso gerará estimativas e recomendações mais precisas.
Recomendamos que você execute o Planejador de Implantação na máquina do servidor de configuração, pois o Planejador calcula a taxa de transferência do servidor no qual está sendo executado. Saiba mais sobre como medir o rendimento.
Se você ainda não tiver uma configuração do servidor de configuração:
- Obtenha uma visão geral dos componentes do Site Recovery.
- Configure um servidor de configuração para executar o Deployment Planner nele.

Em seguida, execute o Planner da seguinte maneira:

Saiba mais sobre o Planejador de Implantação. Você pode baixar a versão mais recente do portal ou baixá-la diretamente.
Revise os pré-requisitos e as atualizações mais recentes para o Planejador de Implantação e baixe e extraia a ferramenta.
Execute o Planejador de Implantação no servidor de configuração.
Gere um relatório para resumir estimativas e recomendações.
Analise as recomendações do relatório e as estimativas de custos.

Nota

Por padrão, a ferramenta é configurada para criar perfis e gera relatórios para até 1000 VMs. Você pode alterar esse limite aumentando o valor da chave MaxVMsSupported no arquivo ASRDeploymentPlanner.exe.config.

Planejar requisitos e capacidade de destino (Azure)

Usando suas estimativas e recomendações coletadas, você pode planejar os recursos e a capacidade de destino. Se você executou o Deployment Planner for VMware VMs, poderá usar várias recomendações de relatório para ajudá-lo.

VMs compatíveis: use esse número para identificar o número de VMs que estão prontas para recuperação de desastres no Azure. As recomendações sobre largura de banda de rede e núcleos do Azure são baseadas nesse número.
Largura de banda de rede necessária: observe a largura de banda necessária para a replicação delta de VMs compatíveis.
- Ao executar o Planner, você especifica o RPO desejado em minutos. As recomendações mostram a largura de banda necessária para atender a esse RPO 100% e 90% do tempo.
- As recomendações de largura de banda de rede levam em conta a largura de banda necessária para o número total de servidores de configuração e servidores de processo recomendados no Planner.
Núcleos do Azure necessários: observe o número de núcleos necessários na região do Azure de destino, com base no número de VMs compatíveis. Se você não tiver núcleos suficientes, no failover o Site Recovery não poderá criar as VMs do Azure necessárias.
Tamanho de lote de VM recomendado: o tamanho de lote recomendado é baseado na capacidade de concluir a replicação inicial do lote dentro de 72 horas por padrão, enquanto atende a um RPO de 100%. O valor da hora pode ser modificado.

Você pode usar essas recomendações para planejar recursos do Azure, largura de banda de rede e processamento em lote de VM.

Planejar assinaturas e cotas do Azure

Queremos garantir que as cotas disponíveis na assinatura de destino sejam suficientes para lidar com o failover.

Tarefa	Detalhes	Ação
Verificar núcleos	Se os núcleos na cota disponível não forem iguais ou excederem a contagem total de destino no momento do failover, os failovers falharão.	Para VMs VMware, verifique se você tem núcleos suficientes na assinatura de destino para atender à recomendação principal do Deployment Planner. Para servidores físicos, verifique se os núcleos do Azure atendem às suas estimativas manuais. Para verificar as cotas, na Assinatura do portal >do Azure, clique em Uso + cotas. Saiba mais sobre como aumentar as quotas.
Verificar limites de failover	O número de failovers não deve exceder os limites de failover da Recuperação de Site.	Se os failovers excederem os limites, você poderá adicionar assinaturas e fazer failover para várias assinaturas ou aumentar a cota de uma assinatura.

Limites de failover

Os limites indicam o número de failovers suportados pela Recuperação de Site dentro de uma hora, supondo três discos por máquina.

O que significa cumprir? Para iniciar uma VM do Azure, o Azure requer que alguns drivers estejam no estado de início de inicialização e serviços como DHCP sejam definidos para iniciar automaticamente.

As máquinas que estiverem em conformidade já terão essas configurações em vigor.
Para máquinas que executam o Windows, você pode verificar proativamente a conformidade e torná-las compatíveis, se necessário. Mais informações.
As máquinas Linux só são colocadas em conformidade no momento do failover.

A máquina está em conformidade com o Azure?	Limites da VM do Azure (failover de disco gerenciado)
Sim	2000
Não	1000

Os limites pressupõem que um mínimo de outros trabalhos esteja em andamento na região de destino da assinatura.
Algumas regiões do Azure são menores e podem ter limites um pouco mais baixos.

Planejar a infraestrutura e a conectividade de VM

Após o failover para o Azure, você precisa que suas cargas de trabalho operem como funcionavam no local e para permitir que os usuários acessem cargas de trabalho em execução nas VMs do Azure.

Saiba mais sobre como fazer failover de sua infraestrutura local do Ative Directory ou DNS para o Azure.
Saiba mais sobre como se preparar para se conectar a VMs do Azure após failover.

Planejar a capacidade de origem e os requisitos

É importante que você tenha servidores de configuração e de processo de expansão suficientes para atender aos requisitos de capacidade. Ao iniciar sua implantação em grande escala, comece com um único servidor de configuração e um único servidor de processo de expansão. À medida que atingir os limites prescritos, adicione servidores adicionais.

Nota

Para VMs VMware, o Deployment Planner faz algumas recomendações sobre os servidores de configuração e processo necessários. Recomendamos que você use as tabelas incluídas nos procedimentos a seguir, em vez de seguir a recomendação do Planejador de Implantação.

Configurar um servidor de configuração

A capacidade do servidor de configuração é afetada pelo número de máquinas replicadas e não pela taxa de rotatividade de dados. Para descobrir se você precisa de servidores de configuração adicionais, use esses limites de VM definidos.

Processador	Memória	Disco de cache	Limite de máquinas replicadas
8 vCPUs 2 soquetes * 4 núcleos @ 2,5 Ghz	16 GB	600 GB	Até 550 máquinas Assume que cada máquina tem três discos de 100 GB cada.

Esses limites são baseados em uma configuração do servidor usando um modelo OVF.
Os limites pressupõem que você não esteja usando o servidor de processo que está sendo executado por padrão no servidor de configuração.

Se você precisar adicionar um novo servidor de configuração, siga estas instruções:

Configure um servidor de configuração para recuperação de desastres de VM VMware, usando um modelo OVF.
Configure um servidor de configuração manualmente para servidores físicos ou para implantações VMware que não podem usar um modelo OVF.

Ao configurar um servidor de configuração, observe que:

Ao configurar um servidor de configuração, é importante considerar a assinatura e o cofre em que ele reside, pois eles não devem ser alterados após a configuração. Se você precisar alterar o cofre, será necessário desassociar o servidor de configuração do cofre e registrá-lo novamente. Isso interrompe a replicação de VMs no cofre.
Se você quiser configurar um servidor de configuração com vários adaptadores de rede, você deve fazer isso durante a configuração. Não é possível fazer isso após o registro do servidor de configuração no vault.

Configurar um servidor de processo

A capacidade do servidor de processo é afetada pelas taxas de rotatividade de dados e não pelo número de máquinas habilitadas para replicação.

Para implantações grandes, você sempre deve ter pelo menos um servidor de processo de expansão.
Para descobrir se você precisa de servidores adicionais, use a tabela a seguir.
Recomendamos que você adicione um servidor com a especificação mais alta.

Processador	Memória	Disco de cache	Taxa de churn
12 vCPUs 2 soquetes*6 núcleos @ 2,5 Ghz	24 GB	1 TB	Até 2 TB por dia

Configure o servidor de processo da seguinte maneira:

Veja os pré-requisitos.
Instale o servidor no portal ou a partir da linha de comando.
Configure máquinas replicadas para usar o novo servidor. Se você já tiver máquinas replicando:
- Você pode mover toda uma carga de trabalho do servidor de processo para o novo servidor de processo.
- Como alternativa, você pode mover VMs específicas para o novo servidor de processo.

Habilite a replicação em larga escala

Depois de planejar a capacidade e implantar os componentes e a infraestrutura necessários, habilite a replicação para um grande número de VMs.

Classifique as máquinas em lotes. Você habilita a replicação para VMs dentro de um lote e, em seguida, passa para o próximo lote.
- Para VMs VMware, você pode usar o tamanho de lote de VM recomendado no relatório do Deployment Planner.
- Para máquinas físicas, recomendamos que você identifique lotes com base em máquinas que tenham um tamanho e quantidade de dados semelhantes e na taxa de transferência de rede disponível. O objetivo é fabricar máquinas em lote que provavelmente terminarão sua replicação inicial em aproximadamente o mesmo período de tempo.
Se a rotatividade de disco de uma máquina for alta ou exceder os limites no Deployment thePlanner, você poderá mover arquivos não críticos que não precisam replicar (como dumps de log ou arquivos temporários) para fora da máquina. Para VMs VMware, você pode mover esses arquivos para um disco separado e, em seguida , excluir esse disco da replicação.
Antes de habilitar a replicação, verifique se as máquinas atendem aos requisitos de replicação.
Configure uma política de replicação para VMs VMware ou servidores físicos.
Habilite a replicação para VMs VMware ou servidores físicos. Isso inicia a replicação inicial para as máquinas selecionadas.

Monitorizar a implementação

Depois de iniciar a replicação para o primeiro lote de VMs, comece a monitorar sua implantação da seguinte maneira:

Atribua um administrador de recuperação de desastres para monitorar o status de integridade das máquinas replicadas.
Monitore eventos para itens replicados e a infraestrutura.
Monitore a integridade dos servidores de processo de expansão.
Inscreva-se para receber notificações por e-mail para eventos, para facilitar o monitoramento.
Realize exercícios regulares de recuperação de desastres para garantir que tudo esteja funcionando conforme o esperado.

Planejar failovers em grande escala

Em caso de desastre, talvez seja necessário fazer failover de um grande número de máquinas/cargas de trabalho para o Azure. Prepare-se para este tipo de evento da seguinte forma.

Você pode se preparar com antecedência para o failover da seguinte maneira:

Prepare sua infraestrutura e VMs para que suas cargas de trabalho fiquem disponíveis após o failover e para que os usuários possam acessar as VMs do Azure.
Observe os limites de failover anteriormente neste documento. Certifique-se de que seus failovers estarão dentro desses limites.
Execute exercícios regulares de recuperação de desastres. Os exercícios ajudam a:
- Encontre lacunas em sua implantação antes do failover.
- Estime o RTO de ponta a ponta para seus aplicativos.
- Estime o RPO de ponta a ponta para suas cargas de trabalho.
- Identifique conflitos de intervalo de endereços IP.
- Ao executar exercícios, recomendamos que você não use redes de produção para perfurações e limpe failovers de teste após cada perfuração.

Para executar um failover em grande escala, recomendamos o seguinte:

Crie planos de recuperação para failover de carga de trabalho.
- Cada plano de recuperação pode desencadear o failover de até 100 máquinas.
- Saiba mais sobre os planos de recuperação.
Adicione scripts de runbook da Automação do Azure aos planos de recuperação, para automatizar quaisquer tarefas manuais no Azure. As tarefas típicas incluem configurar balanceadores de carga, atualizar DNS, etc. Mais informações
Antes do failover, prepare máquinas Windows para que estejam em conformidade com o ambiente do Azure. Os limites de failover são maiores para máquinas que estão em conformidade. Saiba mais sobre runbooks.
Acione o failover com o cmdlet Start-AzRecoveryServicesAsrPlannedFailoverJob PowerShell, juntamente com um plano de recuperação.

Próximos passos

Monitorar a recuperação do site

Partilhar via