Confiabilidade no Microsoft Fabric

Este artigo descreve o suporte à confiabilidade no Microsoft Fabric e a resiliência regional com zonas de disponibilidade e de recuperação entre regiões e continuidade dos negócios. Para obter uma visão geral mais detalhada da confiabilidade no Azure, confira Confiabilidade do Azure.

Suporte à zona de disponibilidade

As zonas de disponibilidade do Azure são pelo menos três grupos de datacenters separados fisicamente em cada região do Azure. Os datacenters dentro de cada zona são equipados com energia, resfriamento e infraestrutura de rede independentes. Em caso de falha de uma zona local, as zonas de disponibilidade foram projetadas de modo que, se uma zona é afetada, os serviços regionais, a capacidade e a alta disponibilidade têm suporte nas duas zonas restantes.

As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é obtida devido à redundância e ao isolamento lógico dos serviços do Azure. Para obter informações detalhadas sobre as zonas de disponibilidade no Azure, confira Regiões e zonas de disponibilidade.

Os serviços habilitados para zonas de disponibilidade do Azure foram projetados para fornecer o nível ideal de resiliência e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ter redundância de zona, com replicação automática entre zonas, ou podem ser zonais, com instâncias fixadas em uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre a arquitetura zonal versus com redundância de zona, confira Recomendações para usar zonas e regiões de disponibilidade.

O Fabric envida esforços na medida do comercialmente razoável para dar suporte a zonas de disponibilidade com redundância de zona, nas quais os recursos são replicados automaticamente nas diversas zonas sem que você precise instalar ou configurar.

Pré-requisitos

  • No momento, o Fabric fornece suporte parcial à zona de disponibilidade em um número limitado de regiões. Esse suporte parcial à zona de disponibilidade abrange experiências (e/ou determinadas funcionalidades em uma experiência).
  • As experiências como Fluxos de Eventos não dão suporte a zonas de disponibilidade.
  • A engenharia de dados dá suporte a zonas de disponibilidade se você usar o OneLake. Se você usar outras fontes de dados, como o ADLS Gen2, precisará garantir que o ZRS (armazenamento com redundância de zona) esteja habilitado.
  • A disponibilidade de zona pode ou não estar disponível para experiências e/ou recursos/funcionalidades do Fabric que estão em versão prévia.
  • Os gateways locais e os modelos semânticos grandes no Power BI não dão suporte a zonas de disponibilidade.
  • O Data Factory (pipelines) dá suporte a zonas de disponibilidade na Europa Ocidental, mas execuções de pipelines novos ou em progresso podem falhar em caso de interrupção de zona.

Regiões com suporte

O Fabric faz o possível comercialmente para dar suporte à zona de disponibilidade em várias regiões da seguinte maneira:

Américas Power BI Datamarts Data Warehouses Análise em tempo real Data Factory (pipelines) Engenharia de Dados
Brazil South
Canadá Central
Centro dos EUA
Leste dos EUA
Leste dos EUA 2
Centro-Sul dos Estados Unidos
Oeste dos EUA 2
Oeste dos EUA 3
Europa
França Central
Centro-Oeste da Alemanha
Norte da Itália
Norte da Europa
Leste da Noruega
Polônia Central
Sul do Reino Unido
Europa Ocidental
Oriente Médio
Catar Central
Israel Central
África
Norte da África do Sul
Pacífico Asiático
Leste da Austrália
Leste do Japão
Sudeste Asiático

Experiência de zona inoperante

Durante uma interrupção em toda a zona, nenhuma ação é necessária durante a recuperação de zona. As funcionalidades do Fabric nas regiões listadas nas regiões com suporte serão autorreparadas e rebalanceadas automaticamente para aproveitar a zona íntegra. A execução de Trabalhos do Spark poderá falhar se o nó mestre estiver na zona com falha. Nesse caso, os trabalhos precisarão ser reenviados.

Importante

Embora a Microsoft faça o possível para dar suporte uniforme e consistente à zona de disponibilidade, em alguns casos de falha na zona de disponibilidade, as capacidades do Fabric localizadas nas regiões do Azure com flutuações mais altas de demanda do cliente podem apresentar uma latência maior do que o normal.

Recuperação de desastre entre regiões e continuidade dos negócios

A DR (recuperação de desastre) trata da recuperação após eventos de alto impacto, como desastres naturais ou implantações com falha, que resultam em tempo de inatividade e perda de dados. Seja qual for a causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que dê suporte ativo à DR. Antes de começar a pensar em criar seu plano de recuperação de desastre, confira Recomendações para criar uma estratégia de recuperação de desastre.

Quando o assunto é DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços de plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente nem retornam de uma região com falha para a replicação cruzada em outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastre que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de PaaS (plataforma como serviço) do Azure fornece recursos e diretrizes para dar suporte à DR. Além disso, você pode usar recursos específicos do serviço para dar suporte a uma recuperação rápida, a fim de ajudar a desenvolver seu plano de DR.

Esta seção descreve um plano de recuperação de desastre para o Fabric que foi elaborado para ajudar a sua organização a manter os dados seguros e acessíveis, quando ocorrer um desastre regional não planejado. O plano abrange os seguintes tópicos:

  • Replicação entre regiões: o Fabric oferece replicação entre regiões para dados armazenados no OneLake. Dependendo dos requisitos, você pode aceitar ou rejeitar esse recurso.

  • Acesso a dados após desastres: em um cenário de desastre regional, o Fabric garante o acesso a dados, com certas limitações. Embora a criação ou modificação de novos itens seja restrita após o failover, o foco principal permanece em garantir que os dados existentes permaneçam acessíveis e intactos.

  • Diretrizes para recuperação: o Fabric fornece um conjunto estruturado de instruções para orientar você durante o processo de recuperação. As diretrizes estruturadas facilitam a transição de retorno às operações regulares.

O Power BI, que agora faz parte do Fabric, tem um sólido sistema de recuperação de desastre em operação e oferece os seguintes recursos:

  • BCDR como padrão: o Power BI inclui recursos de recuperação de desastre automaticamente na oferta padrão. Você não precisa aceitar ou ativar esse recurso separadamente.

  • Replicação entre regiões: o Power BI usa replicação com redundância geográfica do Armazenamento do Azure e replicação com redundância geográfica do SQL do Azure para garantir que as instâncias de backup existam em outras regiões e possam ser usadas. Isso significa que os dados são duplicados entre diferentes regiões, aumentando a disponibilidade e reduzindo os riscos associados a interrupções regionais.

  • Serviços e acesso contínuos após desastres: mesmo durante eventos de interrupção, os itens do Power BI permanecem acessíveis no modo somente leitura. Os itens incluem modelos semânticos, relatórios e painéis, garantindo que as empresas possam continuar os processos de análise e tomada de decisão sem interrupções significativas.

Para obter mais informações, confira Perguntas frequentes sobre alta disponibilidade, failover e recuperação de desastre do Power BI

Importante

Para clientes cujas regiões de origem não têm uma região emparelhada do Azure e são afetadas por um desastre, a capacidade de utilizar as capacidades do Fabric pode ser comprometida, mesmo se os dados dentro dessas capacidades forem replicados. Essa limitação está vinculada à infraestrutura da região de origem, essencial para a operação das capacidades.

Funcionalidade de capacidade e região de origem

Para um planejamento eficaz de recuperação de desastre, é fundamental que você entenda a relação entre sua região de origem e os locais de capacidade. Entender a região de origem e os locais de capacidade ajuda você a fazer seleções estratégicas de regiões de capacidade, bem como os processos de replicação e recuperação correspondentes.

A região de origem para o locatário e o armazenamento de dados da sua organização é definido como o local de endereço de cobrança do primeiro usuário que se inscreve. Para obter mais detalhes sobre a configuração de locação, acesse Planejamento de implementação do Power BI: configuração do locatário. Quando você cria novas capacidades, o armazenamento de dados é definido como a região de origem por padrão. Se você quiser alterar sua região de armazenamento de dados para outra região, precisará Habilitar o Multi-Geo, um recurso do Fabric Premium.

Importante

Escolher uma região diferente para sua capacidade não realoca totalmente todos os seus dados para essa região. Alguns elementos de dados ainda permanecem armazenados na região de origem. Para ver quais dados permanecem na região de origem e quais dados são armazenados na região habilitada para várias áreas geográficas, consulte Configurar o suporte de Multi-Geo para o Fabric Premium.

No caso de uma região inicial que não tenha uma região emparelhada, as capacidades em qualquer região habilitada para várias áreas geográficas poderão enfrentar problemas operacionais, se a região de origem encontrar um desastre, já que a funcionalidade de serviço principal é vinculada à região de origem.

Se você selecionar uma região habilitada para várias áreas geográficas dentro da UE, será garantido que seus dados sejam armazenados dentro do limite de dados da UE.

Para saber como identificar sua região de origem, consulte Localizar a região de origem do Fabric.

Configuração da capacidade de recuperação de desastre

O Fabric fornece uma opção de recuperação de desastre na página de configurações de capacidade. Ele está disponível onde os emparelhamentos regionais do Azure se alinham com a presença de serviço do Fabric. Aqui estão as especificidades desta opção:

  • Acesso à função: somente usuários com a função administrador de capacidade ou superior podem usar essa opção.

  • Granularidade: a granularidade da opção é o nível de capacidade. Ela está disponível para as capacidades Premium e Fabric.

  • Escopo de dados: a alternância de recuperação de desastre aborda especificamente os dados do OneLake, que incluem dados do Lakehouse e do Warehouse. A opção não influencia os seus dados armazenados fora do OneLake.

  • Continuidade da BCDR para o Power BI: embora a recuperação de desastre para dados do OneLake possa ser ativada e desativada, a BCDR para Power BI sempre tem suporte, independentemente de a opção estar ativada ou desativada.

  • Frequência: depois de alterar a configuração da capacidade de recuperação de desastre, você deverá aguardar 30 dias antes de poder alterá-la novamente. O período de espera é definido em vigor para manter a estabilidade e evitar a agregação constante,

Captura de tela da configuração do locatário de recuperação de desastre.

Observação

Depois de ativar a configuração da capacidade de recuperação de desastre, poderá levar até uma semana para que os dados comecem a ser replicados.

Replicação de dados

Quando você ativa a configuração de capacidade de recuperação de desastre, a replicação entre regiões é habilitada como uma capacidade de recuperação de desastre para dados do OneLake. A plataforma Fabric está alinhada com as regiões do Azure para provisionar os pares de redundância geográfica. No entanto, algumas regiões não têm uma região emparelhada do Azure ou a região emparelhada não dá suporte ao Fabric. Para essas regiões, a replicação de dados não está disponível. Para obter mais informações, consulte Regiões com zonas de disponibilidade e nenhum par de regiões e Disponibilidade da região do Fabric.

Observação

Embora o Fabric ofereça uma solução de replicação de dados no OneLake para dar suporte à recuperação de desastre, há limitações notáveis. Por exemplo, os dados de bancos de dados KQL e conjuntos de consultas são armazenados externamente no OneLake, o que significa que é necessária uma abordagem de recuperação de desastre separada. Consulte o restante deste documento para obter os detalhes da abordagem de recuperação de desastre para cada item do Fabric.

Cobrança

O recurso de recuperação de desastre no Fabric permite a replicação geográfica de seus dados para maior segurança e confiabilidade. Esse recurso consome mais armazenamento e transações, que são cobradas como Armazenamento BCDR e Operações BCDR, respectivamente. Você pode monitorar e gerenciar esses custos no aplicativo de Métricas de Capacidade do Microsoft Fabric, em que eles aparecem como itens de linha separados.

Para obter um detalhamento exaustivo de todos os custos de recuperação de desastre associados para ajudar você a planejar e orçar adequadamente, confira Computação e consumo de armazenamento do OneLake.

Configurar recuperação de desastre

Embora o Fabric forneça recursos de recuperação de desastre para dar suporte à resiliência de dados, você deve seguir determinadas etapas manuais para restaurar o serviço durante interrupções. Esta seção detalha as ações que você deve adotar para se preparar para possíveis interrupções.

Fase 1: Preparar

  • Ativar as configurações de capacidade de recuperação de desastre: examine e defina regularmente as configurações de capacidade de recuperação de desastre para garantir que elas atendam às suas necessidades de proteção e desempenho.

  • Criar backups de dados: copie os dados críticos armazenados fora do OneLake para outra região de uma maneira que se alinhe ao seu plano de recuperação de desastre.

Fase 2: Failover de desastre

Quando um grande desastre torna a região primária irrecuperável, o Microsoft Fabric inicia um failover regional. O acesso ao portal do Fabric não estará disponível até que o failover seja concluído e uma notificação seja postada na página de suporte do Microsoft Fabric.

O tempo necessário para que o failover seja concluído após ser iniciado poderá variar, embora normalmente leve menos de uma hora. Depois que o failover for concluído, veja o que você pode esperar:

  • Portal do Fabric: você pode acessar o portal e as operações de leitura, como navegar por workspaces e itens existentes, continuam funcionando. Todas as operações de gravação, como criar ou modificar um workspace, são pausadas.

  • Power BI: você poderá executar operações de leitura, como exibir painéis e relatórios. Não haverá suporte para atualizações, operações de publicação de relatório, modificações de painel e relatório e outras operações que exigem alterações nos metadados.

  • Lakehouse/Warehouse: não será possível abrir esses itens, mas os arquivos poderão ser acessados por meio de APIs ou ferramentas do OneLake.

  • Definição de trabalho do Spark: você não poderá abrir definições de trabalho do Spark, mas os arquivos de código poderão ser acessados por meio de APIs ou ferramentas do OneLake. Todos os metadados ou configurações serão salvos após o failover.

  • Notebook: você não poderá abrir notebooks e o conteúdo do código não será salvo após o desastre.

  • Modelo/Experimento de ML: não será possível abrir modelos ou experimentos de ML. O conteúdo do código e os metadados, como métricas e configurações de execução, não serão salvos após o desastre.

  • Fluxo de Dados Gen2/Pipeline/Eventstream: você não poderá abrir esses itens, mas poderá usar destinos de recuperação de desastre com suporte (lakehouses ou warehouses) para proteger os dados.

  • Banco de dados/Conjunto de consultas KQL: você não poderá acessar bancos de dados KQL e conjuntos de consultas após o failover. Mais etapas de pré-requisito serão necessárias para proteger os dados em bancos de dados KQL e conjuntos de consultas.

Em um cenário de desastre, o portal do Fabric e o Power BI estão no modo somente leitura, e outros itens do Fabric não estão disponíveis, você pode acessar seus dados armazenados no OneLake usando APIs ou ferramentas de terceiros. O portal e o Power BI mantêm a capacidade de executar operações de leitura e gravação nesses dados. Essa habilidade garante que os dados críticos permaneçam acessíveis e modificáveis e reduz a possível interrupção de suas operações de negócios.

Os dados do OneLake permanecerão acessíveis por meio de vários canais:

Fase 3: Plano de recuperação

Embora o Fabric garanta que os dados permaneçam acessíveis após um desastre, você também pode agir para restaurar totalmente seus serviços para o estado antes do incidente. Esta seção fornece um guia passo a passo para ajudar você durante o processo de recuperação.

Etapas da recuperação

  1. Crie uma nova capacidade do Fabric em qualquer região após um desastre. Dada a alta demanda durante esses eventos, recomendamos selecionar uma região fora da sua área geográfica primária para aumentar a probabilidade de disponibilidade do serviço de computação. Para obter informações sobre como criar uma capacidade, consulte Comprar uma assinatura do Microsoft Fabric.

  2. Crie workspaces na capacidade recém-criada. Se necessário, use os mesmos nomes dos workspaces antigos.

  3. Crie itens com os mesmos nomes que os que você deseja recuperar. Essa etapa é importante se você usar o script personalizado para recuperar lakehouses e warehouses.

  4. Restaure os itens. Para cada item, siga a seção relevante nas Diretrizes de recuperação de desastre específicas da experiência para restaurar o item.

Próximas etapas