Confiabilidade do Azure HDInsight no Serviço de Kubernetes do Azure
Observação
Desativaremos o Microsoft Azure HDInsight no AKS em 31 de janeiro de 2025. Para evitar o encerramento abrupto das suas cargas de trabalho, você precisará migrá-las para o Microsoft Fabric ou para um produto equivalente do Azure antes de 31 de janeiro de 2025. Os clusters restantes em sua assinatura serão interrompidos e removidos do host.
Somente o suporte básico estará disponível até a data de desativação.
Importante
Esse recurso está atualmente na visualização. Os Termos de uso complementares para versões prévias do Microsoft Azure incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, confira Informações sobre a versão prévia do Azure HDInsight no AKS. Caso tenha perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para ver mais atualizações sobre a Comunidade do Azure HDInsight.
Este artigo descreve o suporte à confiabilidade do Azure HDInsight no Serviço de Kubernetes do Azure (AKS) e aborda tanto recomendações de confiabilidade específicas quanto a recuperação de desastres e continuidade dos negócios. Para obter uma visão geral mais detalhada dos princípios de confiabilidade no Azure, confira Confiabilidade do Azure.
Recomendações de confiabilidade
Essa seção contém recomendações para obter resiliência e disponibilidade. Cada recomendação se enquadra em uma das duas categorias:
Os itens de integridade abrangem áreas como itens de configuração e a função adequada dos principais componentes que compõem a carga de trabalho do Azure, como configurações de recursos do Azure, dependências de outros serviços e assim por diante.
Os itens de risco abrangem áreas como requisitos de disponibilidade e recuperação, teste, monitoramento, implantação e outros itens que, se deixados não resolvidos, aumentam as chances de problemas no ambiente.
Matriz de prioridade de recomendações de confiabilidade
Cada recomendação é marcada de acordo com a seguinte matriz de prioridade:
Imagem | Prioridade | Descrição |
---|---|---|
Alto | Correção imediata necessária. | |
Médio | Correção dentro de 3 a 6 meses. | |
Baixo | Precisa de revisão. |
Resumo das recomendações de confiabilidade
Categoria | Prioridade | Recomendação |
---|---|---|
Disponibilidade | Recomendações de tamanho de máquina virtual padrão e mínimo | |
Dimensionar o HDInsight automaticamente nos Clusters do AKS | ||
Monitoramento | Integração com Análise de logs | |
Monitoramento com o Prometheus e o Grafana Gerenciados pelo Azure | ||
Segurança | Usar um NSG para restringir o tráfego para o HDInsight no AKS |
Suporte à zona de disponibilidade
As zonas de disponibilidade do Azure são pelo menos três grupos de datacenters separados fisicamente em cada região do Azure. Os datacenters dentro de cada zona são equipados com energia, resfriamento e infraestrutura de rede independentes. Em caso de falha de uma zona local, as zonas de disponibilidade foram projetadas de modo que, se uma zona é afetada, os serviços regionais, a capacidade e a alta disponibilidade têm suporte nas duas zonas restantes.
As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é obtida devido à redundância e ao isolamento lógico dos serviços do Azure. Para obter informações detalhadas sobre as zonas de disponibilidade no Azure, confira Regiões e zonas de disponibilidade.
Os serviços habilitados para zonas de disponibilidade do Azure foram projetados para fornecer o nível ideal de resiliência e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ter redundância de zona, com replicação automática entre zonas, ou podem ser zonais, com instâncias fixadas em uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre a arquitetura zonal versus com redundância de zona, confira Recomendações para usar zonas e regiões de disponibilidade.
O Azure HDInsight no AKS dá suporte à zona de disponibilidade aproveitando a capacidade do Serviço de Kubernetes do Azure de criar pools de nós com redundância de zona. Você pode selecionar quais zonas de disponibilidade implantar o pool de clusters e o cluster durante a criação. Depois que o cluster ou o pool de clusters for criado, você não poderá alterar as zonas de disponibilidade.
Pré-requisitos
As zonas de disponibilidade só têm suporte para versão do pool de cluster >=
1.2
e versão do cluster >=1.2.1
.O Azure HDInsight no AKS tem apenas um SKU padrão e dá suporte ao AZ, desde que a região do Azure tenha suporte a AZ.
As regiões abaixo não dão suporte ao AZ:
Américas Europa Oriente Médio África Pacífico Asiático Oeste dos EUA Norte da Alemanha Alguns SKUs de VM podem não dar suporte a todas as zonas de disponibilidade em uma região. Se você selecionar esses SKUs, os pools de clusters ou clusters do HDInsight no AKS também não serão compatíveis com as zonas de disponibilidade correspondentes.
Aprimoramentos do SLA
Não há SLAs aumentadas para o Azure HDInsight em clusters do AKS com zonas de disponibilidade habilitadas.
Criar um recurso com a zona de disponibilidade habilitada
Pools de cluster Você pode selecionar uma ou mais zonas de disponibilidade durante a criação do pool de clusters depois de selecionar a região.
Clusters Você pode selecionar uma ou mais zonas de disponibilidade durante a criação do cluster.
Tolerância a falhas
Para se preparar para falhas na zona de disponibilidade, é recomendável provisionar em excesso a capacidade de serviço para garantir que o cluster possa tolerar a perda de capacidade de uma zona de disponibilidade e continuar funcionando sem degradação do desempenho durante interrupções em toda a zona. Por exemplo, se você ativar 3 zonas de disponibilidade, seu cluster deverá tolerar 1/3 dos nós inativos (arredonde para o número inteiro mais próximo).
Experiência de zona inoperante
O Azure HDInsight no serviço AKS é redundante por zona. Durante uma interrupção em toda a zona, o cliente deve esperar degradação do desempenho devido à queda de capacidade. Os clientes ainda podem criar novos pools de clusters e clusters nas zonas de disponibilidade que não são afetadas. Os clusters existentes podem funcionar com capacidade reduzida. Recomendações individuais de cargas de trabalho de código aberto e melhores práticas são fornecidas na documentação.
Recuperação de desastre e continuidade dos negócios
A DR (recuperação de desastre) trata da recuperação após eventos de alto impacto, como desastres naturais ou implantações com falha, que resultam em tempo de inatividade e perda de dados. Seja qual for a causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que dê suporte ativo à DR. Antes de começar a pensar em criar seu plano de recuperação de desastre, confira Recomendações para criar uma estratégia de recuperação de desastre.
Quando o assunto é DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços de plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente nem retornam de uma região com falha para a replicação cruzada em outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastre que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de PaaS (plataforma como serviço) do Azure fornece recursos e diretrizes para dar suporte à DR. Além disso, você pode usar recursos específicos do serviço para dar suporte a uma recuperação rápida, a fim de ajudar a desenvolver seu plano de DR.
O Azure HDInsight no serviço do plano de controle do AKS e os bancos de dados são implantados entre regiões do Azure. Entre essas regiões, as instâncias do Azure HDInsight no AKS e as instâncias de banco de dados ficam isoladas. Quando ocorre uma indisponibilidade no nível da região, uma região fica inoperante. Todos os recursos nessa região, incluindo o RP (Provedor de Recursos) do Azure HDInsight no plano de controle do AKS, o banco de dados do Azure HDInsight no plano de controle do AKS e todos os clusters de clientes nessa região. Nesse caso, tudo o que podemos fazer é aguardar o término da indisponibilidade regional. Quando a interrupção zonal for totalmente recuperada, o Azure HDInsight no serviço AKS estará de volta e todos os clusters de clientes voltarão à normalidade. É possível que você encontre alguns problemas devido à inconsistência de dados após a interrupção e precise de uma correção manual com base nas cargas de trabalho do seu aplicativo.
Recuperação de desastre de várias regiões
Atualmente, o Azure HDInsight no AKS não dá suporte ao failover entre regiões. Melhorar a continuidade dos negócios usando a recuperação de desastre de alta disponibilidade entre regiões requer designs de arquitetura de maior complexidade e mais alto custo. Os clientes podem optar por criar sua própria solução para fazer backup de dados importantes e status do trabalho nas diferentes regiões.
Detecção, notificação e gerenciamento de interrupção
Use as ferramentas de monitoramento do Azure no HDInsight no AKS para detectar qualquer comportamento anormal no cluster e definir as notificações de alerta correspondentes. Você pode habilitar o Log Analytics de várias maneiras e usar o serviço do Prometheus gerenciado com painéis de controle do Grafana no Azure para o monitoramento. Para saber mais, confira Integração do Azure Monitor.
Assine os alertas de integridade do Azure para ser notificado sobre problemas de serviço, manutenção planejada, avisos de integridade e segurança de uma assinatura, serviço ou região. Notificações de integridade que incluem a causa do problema e o ETA determinado ajudam você a executar melhor o failover e os failbacks. Para obter mais informações, confira Gerenciar a integridade do serviço e a documentação de Integridade do Serviço do Azure.
Recuperação de desastre em região única
Atualmente, o Azure HDInsight no AKS tem apenas uma oferta de serviço padrão e os clusters são criados em uma localização geográfica de uma única região. Os clientes são responsáveis pelas configurações de recuperação de desastre com base nos requisitos do aplicativo.
Capacidade e resiliência proativa de recuperação de desastre
O Azure HDInsight no AKS e seus clientes operam sob o Modelo de responsabilidade compartilhada, o que significa que o cliente deve atender aos requisitos de recuperação de desastre para o serviço que implanta e controla. Para garantir que a recuperação seja proativa, os clientes devem sempre implantar recursos secundários previamente porque não há garantia de capacidade no momento do impacto para aqueles que não fizeram a alocação prévia.
Ao contrário do HDInsight, as Máquinas Virtuais usadas no HDInsight em clusters AKS exigem a mesma cota que as VMs do Azure. Para obter mais informações, confira Planejamento da capacidade.
Conteúdo relacionado
Para saber mais sobre os itens discutidos neste artigo, veja: