DR para Plataforma de Dados do Azure - Implantar este cenário

Azure Synapse Analytics

Azure Machine Learning

Azure Cosmos DB

Azure Data Lake

Azure Event Hubs

Atividades do cliente necessárias

Pré-incidente

Para serviços do Azure

Esteja familiarizado com o Azure Service Health no portal do Azure. Esta página funcionará como um "balcão único" durante um incidente.
Considere o uso de alertas de Integridade do Serviço, que podem ser configurados para produzir notificações automaticamente quando ocorrerem incidentes do Azure.

Para o Power BI

Esteja familiarizado com o Estado de Funcionamento do Serviço no centro de administração do Microsoft 365. Esta página funcionará como um "balcão único" durante um incidente.
Considere o uso do aplicativo móvel Microsoft 365 Admin para obter notificações automáticas de alerta de incidente de serviço.

Durante o incidente

Para serviços do Azure

A Integridade do Serviço do Azure em seu portal de gerenciamento do Azure fornecerá as atualizações mais recentes.
- Se houver problemas para acessar a Integridade do Serviço, consulte a página Status do Azure.
- Se houver problemas para acessar a página Status, vá para @AzureSupport X (anteriormente Twitter).
Se o impacto/problemas não corresponderem ao incidente (ou persistirem após a mitigação), entre em contato com o suporte para gerar um tíquete de suporte de serviço.

Para o Power BI

A página Estado de Funcionamento do Serviço no centro de administração do Microsoft 365 fornecerá as atualizações mais recentes
- Se houver problemas para acessar a Integridade do Serviço, consulte a página de status do Microsoft 365
- Se o impacto/problemas não corresponderem ao incidente (ou se os problemas persistirem após a mitigação), você deverá gerar um tíquete de suporte de serviço.

Recuperação pós-Microsoft

Consulte as seções abaixo para obter esses detalhes.

Pós-incidente

Para Serviços do Azure

A Microsoft publicará um PIR no portal do Azure - Estado de Funcionamento do Serviço para revisão.

Para o Power BI

A Microsoft publicará um PIR no Microsoft 365 Admin - Service Health para revisão.

Aguarde o processo da Microsoft

O processo "Aguarde pela Microsoft" está simplesmente esperando que a Microsoft recupere todos os componentes e serviços na região principal afetada. Uma vez recuperada, valide a vinculação da plataforma de dados aos serviços corporativos compartilhados ou outros, a data do conjunto de dados e, em seguida, execute os processos de atualização do sistema para a data atual.

Uma vez concluído esse processo, a validação técnica e de especialistas no assunto do negócio (SME) pode ser concluída, permitindo a aprovação das partes interessadas para a recuperação do serviço.

Reimplantar em caso de desastre

Para uma estratégia de "Reimplantação em caso de desastre", o seguinte fluxo de processo de alto nível pode ser descrito.

Recupere os serviços compartilhados corporativos e os sistemas de origem da Contoso
- Esta etapa é um pré-requisito para a recuperação da plataforma de dados.
- Esta etapa seria concluída pelos vários grupos de suporte operacional da Contoso responsáveis pelos serviços compartilhados corporativos e sistemas de origem operacional.
Recuperar serviços do Azure Os Serviços do Azure referem-se aos aplicativos e serviços que fazem a oferta da Nuvem do Azure e estão disponíveis na região secundária para implantação.

Os Serviços do Azure referem-se aos aplicativos e serviços que fazem a oferta da Nuvem do Azure e estão disponíveis na região secundária para implantação.
- Esta etapa é um pré-requisito para a recuperação da plataforma de dados.
- Esta etapa seria concluída pela Microsoft e outros parceiros de plataforma como serviço (PaaS)/software como serviço (SaaS).
Recupere a base da plataforma de dados
- Esta etapa é o ponto de entrada para as atividades de recuperação da plataforma.
- Para a estratégia de reimplantação, cada componente/serviço necessário seria adquirido e implantado na região secundária.
  - Consulte a Seção Serviço e Componente do Azure nesta série para obter um detalhamento detalhado dos componentes e estratégias de implantação.
- Esse processo também deve incluir atividades como a vinculação aos serviços compartilhados da empresa, garantindo a conectividade para acesso/autenticação e validando se o descarregamento de log está funcionando, ao mesmo tempo em que garante a conectividade com processos upstream e downstream.
- Os dados/processamento devem ser confirmados. Por exemplo, validação do carimbo de data/hora da plataforma recuperada.
  - Se houver dúvidas sobre a integridade dos dados, a decisão pode ser tomada para reverter ainda mais no tempo antes de executar o novo processamento para atualizar a plataforma.
- Ter uma ordem de prioridade para os processos (com base no impacto nos negócios) ajudará a orquestrar a recuperação.
- Esta etapa deve ser encerrada por validação técnica, a menos que os utilizadores empresariais interajam diretamente com os serviços. Se houver acesso direto, será necessária uma etapa de validação de negócios.
- Uma vez concluída a validação, uma transferência para as equipes de solução individuais para iniciar seu próprio processo de recuperação de desastres (DR) acontece.
  - Esta transferência deve incluir a confirmação do carimbo de data/hora atual dos dados e processos.
  - Se os principais processos de dados corporativos forem executados, as soluções individuais devem estar cientes disso - fluxos de entrada/saída, por exemplo.
Recupere as soluções individuais hospedadas pela plataforma
- Cada solução individual deve ter seu próprio runbook de DR. Os runbooks devem conter pelo menos as partes interessadas de negócios nomeadas que testarão e confirmarão que a recuperação do serviço foi concluída.
- Dependendo da contenção ou prioridade de recursos, as principais soluções/cargas de trabalho podem ser priorizadas em detrimento de outras - processos empresariais centrais em vez de laboratórios ad hoc, por exemplo.
- Uma vez concluídas as etapas de validação, uma transferência para as soluções downstream para iniciar seu processo de recuperação de DR acontece.
Transferência para sistemas dependentes a jusante
- Depois que os serviços dependentes tiverem sido recuperados, o processo de recuperação E2E DR será concluído.
Nota

Embora seja teoricamente possível automatizar completamente um processo E2E DR, é improvável dado o risco do evento versus o custo das atividades SDLC necessárias para cobrir o processo E2E.
Fallback para a região primária O fallback é o processo de mover o serviço da plataforma de dados e seus dados de volta para a região primária, assim que estiverem disponíveis para BAU.

Dependendo da natureza dos sistemas de origem e dos vários processos de dados, o fallback da plataforma de dados pode ser feito independentemente de outras partes do ecossistema de dados.

Os clientes são aconselhados a rever as dependências da sua própria plataforma de dados (tanto a montante como a jusante) para tomar a decisão adequada. A seção a seguir pressupõe uma recuperação independente da plataforma de dados.

Depois que todos os componentes/serviços necessários estiverem disponíveis na região principal, os clientes completarão um teste de fumaça para validar a recuperação da Microsoft.
A configuração do componente/serviço seria validada. Os deltas seriam resolvidos por meio de reimplantação a partir do controle do código-fonte.
A data do sistema na região primária seria estabelecida entre os componentes com monitoração de estado. O delta entre a data estabelecida e o carimbo de data/hora na região secundária deve ser resolvido executando ou repetindo os processos de ingestão de dados a partir desse ponto.
Com a aprovação das partes interessadas comerciais e técnicas, seria selecionada uma janela de recurso. Idealmente, isso deve acontecer durante uma pausa na atividade e processamento do sistema.
Durante o fallback, a região primária seria sincronizada com a região secundária, antes que o sistema fosse trocado.
Após um período de execução paralela, a região secundária seria retirada do ar do sistema.
Os componentes na região secundária seriam descartados ou removidos, dependendo da estratégia de DR selecionada.

Processo de sobressalente quente

Para uma estratégia de "Warm Spare", o fluxo de processo de alto nível está estreitamente alinhado ao do "Redeploy on Disaster", a principal diferença é que os componentes já foram adquiridos na região secundária. Essa estratégia elimina o risco de contenção de recursos de outras organizações que procuram concluir sua própria DR nessa região.

Processo Hot Spare

A estratégia "Hot Spare" significa que os serviços da plataforma, incluindo PaaS e sistemas de infraestrutura como serviço (IaaS), persistirão apesar do evento de desastre, pois os sistemas secundários são executados em conjunto com os sistemas primários. Tal como acontece com a estratégia "Warm Spare", esta estratégia elimina o risco de contenção de recursos de outras organizações que procuram completar a sua própria DR naquela região.

Os clientes Hot Spare monitorariam a recuperação de componentes/serviços da Microsoft na região principal. Uma vez concluído, os clientes validariam os sistemas da região primária e completariam o fallback para a região primária. Esse processo seria semelhante ao processo de failover de DR, ou seja, verifique a base de código e os dados disponíveis, reimplantando conforme necessário.

Nota

Uma observação especial aqui deve ser feita para garantir que todos os metadados do sistema sejam consistentes entre as duas regiões.

Depois que o Fallback para o primário for concluído, os balanceadores de carga do sistema poderão ser atualizados para trazer a região primária de volta à topologia do sistema. Se disponível, uma abordagem de liberação canária pode ser usada para alternar incrementalmente a região primária para o sistema.

Estrutura do plano de DR

Um plano de DR eficaz apresenta um guia passo a passo para recuperação de serviço que pode ser executado por um recurso técnico do Azure. Como tal, o seguinte lista uma estrutura MVP proposta para um Plano DR.

Requisitos do processo
- Qualquer detalhe específico do processo de DR do cliente, como a autorização correta necessária para iniciar o DR e tomar decisões importantes sobre a recuperação, conforme necessário (incluindo "definição de concluído"), referência de tíquete de DR de suporte ao serviço e detalhes da sala de guerra.
- Confirmação de recursos, incluindo o backup do lead e do executor de DR. Todos os recursos devem ser documentados com contatos primários e secundários, caminhos de escalonamento e calendários de licença. Em situações críticas de DR, os sistemas de escala podem precisar ser considerados.
- Laptop, pacotes de energia ou energia de backup, conectividade de rede e detalhes do telefone celular para o executor de DR, backup de DR e quaisquer pontos de escalonamento.
- O processo a ser seguido se algum dos requisitos do processo não for atendido.
Lista de contatos
- Liderança de DR e grupos de apoio.
- PME empresariais que completarão o ciclo de teste/revisão para a recuperação técnica.
- Proprietários de empresas afetados, incluindo os aprovadores de recuperação de serviços.
- Proprietários técnicos afetados, incluindo os aprovadores de recuperação técnica.
- Apoio às PME em todas as áreas afetadas, incluindo as principais soluções alojadas pela plataforma.
- Sistemas a jusante afetados – suporte operacional.
- Sistemas fonte upstream – suporte operacional.
- Contatos de serviços compartilhados corporativos. Por exemplo, suporte de acesso e autenticação, monitoramento de segurança e suporte de gateway
- Quaisquer fornecedores externos ou terceiros, incluindo contactos de suporte para fornecedores de serviços em nuvem.
Projeto de arquitetura
- Descreva os detalhes do cenário final (E2E) e anexe toda a documentação de suporte associada.
Dependências
- Liste todas as relações e dependências dos componentes.
Pré-requisitos de DR
- Confirmação de que os sistemas fonte a montante estão disponíveis conforme necessário.
- O acesso elevado através da pilha foi concedido aos recursos do executor de DR.
- Os serviços do Azure estão disponíveis conforme necessário.
- O processo a ser seguido se algum dos pré-requisitos não tiver sido cumprido.
Recuperação técnica - instruções passo-a-passo
- Ordem de execução.
- Descrição do passo.
- Pré-requisito da etapa.
- Etapas detalhadas do processo para cada ação discreta, incluindo URLs.
- Instruções de validação, incluindo as provas exigidas.
- Tempo esperado para concluir cada etapa, incluindo contingências.
- O processo a ser seguido se a etapa falhar.
- Os pontos de escalonamento em caso de falha ou apoio às PME.
Recuperação técnica - pós-requisitos
- Confirme o carimbo de data/hora atual do sistema nos principais componentes.
- Confirme os URLs e IPs do sistema DR.
- Preparar-se para o processo de revisão das partes interessadas do negócio, incluindo a confirmação do acesso aos sistemas e a conclusão da validação e aprovação das PME empresariais.
Revisão e aprovação das partes interessadas do negócio
- Detalhes de contato do recurso comercial.
- As etapas de validação de negócios de acordo com a recuperação técnica acima.
- O rastro de provas exigido do aprovador de negócios assinando a recuperação.
Pós-requisitos de recuperação
- Entrega ao suporte operacional para execução dos processos de dados para atualização do sistema.
- Entregar os processos e soluções a jusante – confirmando a data e os detalhes de ligação do sistema DR.
- Confirme o processo de recuperação completo com o lead DR – confirmando a trilha de evidências e o runbook concluído.
- Notifique as equipes de segurança de que privilégios de acesso elevados podem ser removidos da equipe de DR.

Textos explicativos

Recomenda-se incluir capturas de tela do sistema de cada processo de etapa. Estas capturas de ecrã ajudarão a resolver a dependência das PME do sistema para concluir as tarefas.
- Para acompanhar a rápida evolução dos serviços de nuvem, o plano de DR deve ser regularmente revisitado, testado e executado por recursos com conhecimento atual do Azure e seus serviços.
As etapas técnicas de recuperação devem refletir a prioridade do componente e da solução para a organização. Por exemplo, os principais fluxos de dados corporativos são recuperados antes de laboratórios de análise de dados ad hoc.
As etapas de recuperação técnica devem seguir a ordem dos fluxos de trabalho (normalmente da esquerda para a direita), uma vez que os componentes básicos ou o serviço como o Key Vault tenham sido recuperados. Essa estratégia garantirá que as dependências a montante estejam disponíveis e que os componentes possam ser testados adequadamente.
Uma vez concluído o plano passo-a-passo, deve ser obtido um tempo total para atividades com contingência. Se este total exceder o objetivo de tempo de recuperação (RTO) acordado, existem várias opções disponíveis:
- Automatize os processos de recuperação selecionados (sempre que possível).
- Procure oportunidades para executar etapas de recuperação selecionadas em paralelo (sempre que possível). No entanto, observando que essa estratégia pode exigir recursos adicionais do executor de DR.
- Elevar os principais componentes para níveis mais altos de níveis de serviço, como PaaS, onde a Microsoft assume maior responsabilidade pelas atividades de recuperação de serviços.
- Estender o RTO com as partes interessadas.

Testes de DR

A natureza da oferta do serviço de Nuvem do Azure resulta em restrições para qualquer cenário de teste de DR. Portanto, a orientação é manter uma assinatura de DR com os componentes da plataforma de dados, pois eles estariam disponíveis na região secundária.

A partir dessa linha de base, o runbook do plano de DR pode ser executado seletivamente, prestando atenção específica aos serviços e componentes que podem ser implantados e validados. Este processo exigirá um conjunto de dados de teste selecionado, permitindo a confirmação das verificações técnicas e de validação de negócios de acordo com o plano.

Um plano de DR deve ser testado regularmente não só para garantir que está atualizado, mas também para construir "memória muscular" para as equipes que realizam atividades de failover e recuperação.

Os backups de dados e configurações também devem ser testados regularmente para garantir que sejam "adequados à finalidade" para dar suporte a quaisquer atividades de recuperação.

A área-chave a ser focada durante um teste de DR é garantir que as etapas prescritivas ainda estejam corretas e que os tempos estimados ainda sejam relevantes.

Se as instruções refletirem as telas do portal em vez de código – as instruções devem ser validadas pelo menos a cada 12 meses devido à cadência de mudança na nuvem.

Embora a aspiração seja ter um processo de DR totalmente automatizado, a automação total pode ser improvável devido à raridade do evento. Portanto, é recomendável estabelecer a linha de base de recuperação com a infraestrutura DSC (Configuração de Estado Desejado) como código (IaC) usado para fornecer a plataforma e, em seguida, atualizar à medida que novos projetos se baseiam na linha de base.

Com o tempo, à medida que os componentes e serviços são estendidos, um NFR deve ser imposto, exigindo que o pipeline de implantação de produção seja refatorado para fornecer cobertura para DR.

Se os tempos do runbook excederem o RTO, há várias opções:

Estender o RTO com as partes interessadas.
Diminua o tempo necessário para as atividades de recuperação, por meio de automação, execução de tarefas em paralelo ou migração para níveis mais altos de servidor em nuvem.

Azure Chaos Studio

O Azure Chaos Studio é um serviço gerenciado para melhorar a resiliência injetando falhas em seus aplicativos do Azure. O Chaos Studio permite orquestrar a injeção de falhas em seus recursos do Azure de forma segura e controlada, usando experimentos. Consulte a documentação do produto para obter uma descrição dos tipos de falhas suportados atualmente.

A iteração atual do Chaos Studio abrange apenas um subconjunto de componentes e serviços do Azure. Até que mais bibliotecas de falhas sejam adicionadas, o Chaos Studio é uma abordagem recomendada para testes de resiliência isolados em vez de testes completos de DR do sistema.

Mais informações sobre o Chaos studio podem ser encontradas na documentação do Azure Chaos Studio.

Azure Site Recovery

Para componentes IaaS, o Azure Site Recovery protegerá a maioria das cargas de trabalho em execução em uma VM ou servidor físico com suporte

Existem orientações sólidas para:

Próximos passos

Agora que você aprendeu como implantar o cenário, pode ler um resumo da série DR para plataforma de dados do Azure.

Partilhar via

DR para Plataforma de Dados do Azure - Implantar este cenário

Atividades do cliente necessárias

Pré-incidente

Durante o incidente

Recuperação pós-Microsoft

Pós-incidente

Aguarde o processo da Microsoft

Reimplantar em caso de desastre

Processo de sobressalente quente

Processo Hot Spare

Estrutura do plano de DR

Textos explicativos

Testes de DR

Azure Chaos Studio

Azure Site Recovery

Próximos passos

Comentários

Recursos adicionais

Partilhar via

DR para Plataforma de Dados do Azure - Implantar este cenário

Atividades do cliente necessárias

Pré-incidente

Durante o incidente

Recuperação pós-Microsoft

Pós-incidente

Aguarde o processo da Microsoft

Reimplantar em caso de desastre

Processo de sobressalente quente

Processo Hot Spare

Estrutura do plano de DR

Textos explicativos

Testes de DR

Azure Chaos Studio

Azure Site Recovery

Recursos relacionados

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais