Validar um cluster do Azure Stack HCI

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019.

Aviso

As instruções de implantação fornecidas neste artigo se aplicam a uma versão mais antiga, Azure Stack HCI, versão 22H2. Para novas implantações, recomendamos que você use a versão mais recente disponível em geral, Azure Stack HCI, versão 23H2. Para obter instruções de implantação, consulte Sobre o Azure Stack HCI, versão 23H2 implantação.

Validar o DCB não é mais a ferramenta recomendada para configurar ou testar a configuração de rede do host no Azure Stack HCI. É recomendável usar a ATC de Rede para configurar a configuração de rede do host para o Azure Stack HCI. A ATC de rede sempre substitui Validar DCB no Azure Stack HCI.

Embora o assistente Criar cluster no Windows Admin Center execute determinadas validações para criar um cluster de trabalho com o hardware selecionado, a validação do cluster executa verificações adicionais para garantir que o cluster funcionará em um ambiente de produção. Este artigo de instruções se concentra em por que a validação de cluster é importante e quando executá-la em um cluster do Azure Stack HCI.

É recomendável executar a validação de cluster para os seguintes cenários primários:

  • Depois de implantar um cluster de servidor, execute a ferramenta Validate-DCB para testar a rede.
  • Depois de atualizar um cluster de servidor, dependendo do cenário, execute as duas opções de validação para solucionar problemas de cluster.
  • Depois de configurar a replicação com a Réplica de Armazenamento, valide se a replicação está continuando normalmente verificando alguns eventos específicos e executando alguns comandos.
  • Depois de criar um cluster de servidor, execute a ferramenta Validate-DCB antes de colocá-la em produção.

O que é validação de cluster?

A validação de cluster destina-se a capturar problemas de hardware ou configuração antes que um cluster entre em produção. A validação de cluster ajuda a garantir que a solução do Azure Stack HCI que você está prestes a implantar seja realmente confiável. Você também pode usar a validação de cluster em clusters de failover configurados como uma ferramenta de diagnóstico.

Cenários de validação específicos

Esta seção descreve cenários nos quais a validação também é necessária ou útil.

  • Validação antes que o cluster seja configurado:

    • Um conjunto de servidores prontos para se tornar um cluster de failover: Esse é o cenário de validação mais simples. Os componentes de hardware (sistemas, redes e armazenamento) estão conectados, mas os sistemas ainda não estão funcionando como um cluster. A execução de testes nessa situação não tem efeito sobre a disponibilidade.

    • VMs do servidor: Para servidores virtualizados em um cluster, execute a validação do cluster como faria em qualquer outro novo cluster. O requisito para executar o recurso é o mesmo se você tiver:

      • Um "cluster host" em que o failover ocorre entre dois computadores físicos.
      • Um "cluster convidado" em que ocorre failover entre sistemas operacionais convidados no mesmo computador físico.
  • Validação depois que o cluster é configurado e em uso:

    • Antes de adicionar um servidor ao cluster: Quando você adiciona um servidor a um cluster, é altamente recomendável validar o cluster. Especifique os membros do cluster existentes e o novo servidor ao executar a validação do cluster.

    • Ao adicionar unidades: Quando você adiciona unidades adicionais ao cluster, que é diferente de substituir unidades com falha ou criar discos virtuais ou volumes que dependem das unidades existentes, execute a validação do cluster para confirmar se o novo armazenamento funcionará corretamente.

    • Ao fazer alterações que afetam o firmware ou os drivers: Se você atualizar ou fazer alterações no cluster que afetam o firmware ou os drivers, deverá executar a validação do cluster para confirmar se a nova combinação de hardware, firmware, drivers e software dá suporte à funcionalidade do cluster de failover.

    • Depois de restaurar um sistema do backup: Depois de restaurar um sistema do backup, execute a validação do cluster para confirmar se o sistema funciona corretamente como parte de um cluster.

Validar a rede

A ferramenta Microsoft Validate-DCB foi projetada para validar a configuração de DCB (Ponte do Data Center) no cluster. Para fazer isso, a ferramenta usa uma configuração esperada como entrada e testa cada servidor no cluster. Esta seção aborda como instalar e executar a ferramenta Validate-DCB, examinar os resultados e resolve erros de rede que a ferramenta identifica.

Observação

A Microsoft recomenda implantar e gerenciar sua configuração com a ATC de Rede, o que elimina a maioria dos desafios de configuração que a ferramenta Validate-DCB verifica. Para saber mais sobre a ATC de Rede, que fornece uma abordagem baseada em intenção para hospedar a implantação de rede, consulte Simplificar a rede de host com a ATC de rede.

Na rede, o RDMA (acesso remoto direto à memória) sobre a RoCE (Ethernet Converged) requer tecnologias dcb para tornar a malha de rede sem perda. Com iWARP, DCB é opcional. No entanto, a configuração do DCB pode ser complexa, com a configuração exata necessária em:

  • Cada servidor no cluster
  • Cada porta de rede que o tráfego RDMA passa na malha

Pré-requisitos

  • Informações de configuração de rede do cluster de servidores que você deseja validar, incluindo:
    • Nome do cluster do host ou servidor
    • Nome do comutador virtual
    • Nomes de adaptador de rede
    • Configurações de PFC (Controle de Fluxo de Prioridade) e ETS (Seleção avançada de transmissão)
  • Uma conexão com a Internet para baixar o módulo de ferramenta em Windows PowerShell da Microsoft.

Instalar e executar a ferramenta Validar-DCB

Para instalar e executar a ferramenta Validate-DCB:

  1. No computador de gerenciamento, abra uma sessão Windows PowerShell como Administrador e use o comando a seguir para instalar a ferramenta.

    Install-Module Validate-DCB
    
  2. Aceite as solicitações para usar o provedor NuGet e acesse o repositório para instalar a ferramenta.

  3. Depois que o PowerShell se conectar à rede da Microsoft para baixar a ferramenta, digite Validate-DCB e pressione Enter para iniciar o assistente de ferramenta.

    Observação

    Se você não puder executar o script de ferramenta Validate-DCB, talvez seja necessário ajustar suas políticas de execução do PowerShell. Use o cmdlet Get-ExecutionPolicy para exibir as configurações atuais da política de execução de script. Para obter informações sobre como definir políticas de execução no PowerShell, consulte Sobre políticas de execução.

  4. Na página Bem-vindo ao assistente de configuração Validar-DCB, selecione Avançar.

  5. Na página Clusters e Nós, digite o nome do cluster de servidor que você deseja validar, selecione Resolver para listá-lo na página e selecione Avançar.

    A página Clusters e Nós do assistente de configuração Validate-DCB

  6. Na página Adaptadores:

    1. Marque a caixa de seleção anexada vSwitch e digite o nome do vSwitch.
    2. Em Nome do Adaptador, digite o nome de cada NIC física, em Nome vNIC do Host, o nome de cada NIC virtual (vNIC) e, em VLAN, a ID da VLAN em uso para cada adaptador.
    3. Expanda a caixa de listagem suspensa Tipo RDMA e selecione o protocolo apropriado: RoCE ou iWARP. Defina também Quadros Jumbo como o valor apropriado para sua rede e selecione Avançar.

    A página Adaptadores do assistente de configuração Validate-DCB

    Observação

  7. Na página Ponte do Data Center, modifique os valores para corresponder às configurações da sua organização para Prioridade, Nome da Política e Reserva de Largura de Banda e, em seguida, selecione Avançar.

    A página de ponte do Data Center do assistente de configuração Validate-DCB

    Observação

    Selecionar RDMA sobre RoCE na página anterior do assistente requer DCB para confiabilidade de rede em todas as NICs e comutadores.

  8. Na página Salvar e Implantar, na caixa Caminho do Arquivo de Configuração , salve o arquivo de configuração usando .ps1 extensão em um local onde você possa usá-lo novamente mais tarde, se necessário, e selecione Exportar para começar a executar a ferramenta Validate-DCB.

    • Opcionalmente, você pode implantar o arquivo de configuração concluindo a seção Implantar Configuração em Nós da página, que inclui a capacidade de usar uma conta Automação do Azure para implantar a configuração e validá-la. Consulte Criar uma conta Automação do Azure para começar a usar Automação do Azure.

    A página Salvar e Implantar do assistente de configuração Validate-DCB

Examinar os resultados e corrigir erros

A ferramenta Validate-DCB produz resultados em duas unidades:

  1. [Unidade Global] os resultados listam pré-requisitos e requisitos para executar os testes modais.
  2. [Unidade Modal] os resultados fornecem comentários sobre cada configuração de host de cluster e práticas recomendadas.

Este exemplo mostra os resultados de verificação bem-sucedidos de um único servidor para todos os pré-requisitos e testes de unidade modal indicando uma Contagem de Falha de 0.

Validate-DCB Global unit and Modal unit test results

As etapas a seguir mostram como identificar um erro de Pacote Jumbo do vNIC SMB02 e corrigi-lo:

  1. Os resultados das verificações da ferramenta Validate-DCB mostram um erro de Contagem com Falha de 1.

    Resultados da verificação da ferramenta Validate-DCB mostrando um erro de Contagem com Falha de 1

  2. A rolagem de volta pelos resultados mostra um erro em vermelho indicando que o Pacote Jumbo para vNIC SMB02 no host S046036 está definido no tamanho padrão de 1514, mas deve ser definido como 9014.

    Resultado da verificação da ferramenta Validate-DCB mostrando um erro de configuração de tamanho de pacote jumbo

  3. A revisão das propriedades Avançadas do vNIC SMB02 no host S046036 mostra que o Pacote Jumbo está definido como o padrão de Desabilitado.

    Configuração do Pacote Jumbo de propriedades avançadas do Hyper-V do host do servidor

  4. Corrigir o erro requer habilitar o recurso Pacote Jumbo e alterar seu tamanho para 9014 bytes. Executar a verificação novamente no host S046036 confirma essa alteração retornando uma Contagem de Falha de 0.

    Validate-DCB scan results confirming that the Server host's Jumbo Packet setting is fixed

Para saber mais sobre como resolver erros que a ferramenta Validate-DCB identifica, consulte o vídeo a seguir.

Você também pode instalar a ferramenta offline. Para sistemas desconectados, use Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB e mova os módulos em c:\temp\Validate-DCB para o sistema desconectado. Para obter mais informações, consulte o vídeo a seguir.

Validar o cluster

Use as etapas a seguir para validar os servidores em um cluster existente no Windows Admin Center.

  1. Em Windows Admin Center, em Todas as conexões, selecione o cluster do Azure Stack HCI que você deseja validar e selecione Conectar.

    O Painel do Gerenciador de Cluster exibe informações de visão geral sobre o cluster.

  2. No Painel do Gerenciador de Cluster, em Ferramentas, selecione Servidores.

  3. Na página Inventário , selecione os servidores no cluster, expanda o submenu Mais e selecione Validar cluster.

  4. Na janela pop-up Validar Cluster , selecione Sim.

    Validar janela pop-up do cluster

  5. Na janela pop-up CredSSP (Provedor de Serviços de Segurança de Credencial), selecione Sim.

  6. Forneça suas credenciais para habilitar o CredSSP e selecione Continuar.
    A validação do cluster é executada em segundo plano e fornece uma notificação quando ela é concluída. Nesse ponto, você pode exibir o relatório de validação, conforme descrito na próxima seção.

Observação

Depois que os servidores de cluster forem validados, você precisará desabilitar o CredSSP por motivos de segurança.

Desabilitar CredSSP

Depois que o cluster de servidores for validado com êxito, você precisará desabilitar o protocolo CredSSP (Provedor de Suporte de Segurança de Credencial) em cada servidor para fins de segurança. Para obter mais informações, consulte CVE-2018-0886.

  1. Em Windows Admin Center, em Todas as conexões, selecione o primeiro servidor no cluster e, em seguida, selecione Conectar.

  2. Na página Visão geral , selecione Desabilitar CredSSP e, em seguida, na janela pop-up Desabilitar CredSSP , selecione Sim.

    O resultado da Etapa 2 remove a faixa CredSSP ENABLED vermelha na parte superior da página Visão geral do servidor e desabilita o CredSSP nos outros servidores.

Exibir relatórios de validação

Agora você está pronto para exibir o relatório de validação do cluster.

Há algumas maneiras de acessar relatórios de validação:

  • Na página Inventário , expanda o submenu Mais e selecione Exibir relatórios de validação.

  • No canto superior direito do Windows Admin Center, selecione o ícone de sino Notificações para exibir o painel Notificações. Selecione o aviso de cluster validado com êxito e, em seguida, selecione Ir para o relatório de validação do cluster de failover.

Observação

O processo de validação do cluster de servidores pode levar algum tempo para ser concluído. Não alterne para outra ferramenta no Windows Admin Center enquanto o processo estiver em execução. No painel Notificações, uma barra de status abaixo do aviso Validar cluster indica quando o processo é concluído.

Validar o cluster usando o PowerShell

Você também pode usar Windows PowerShell para executar testes de validação no cluster de servidores e exibir os resultados. Você pode executar testes antes e depois que um cluster é configurado.

Para executar um teste de validação em um cluster de servidores, emita os cmdlets do PowerShell do nome do servidor>Get-Cluster e Test-Cluster<do computador de gerenciamento ou execute apenas o cmdlet Test-Cluster diretamente no cluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Para obter mais exemplos e informações de uso, consulte a documentação de referência test-cluster .

Test-NetStack é uma ferramenta de teste baseada no PowerShell disponível no GitHub que você pode usar para executar testes de tráfego ICMP, TCP e RDMA de redes e identificar possíveis configurações incorretas de malha de rede e host ou instabilidade operacional. Use Test-NetStack para validar caminhos de dados de rede testando caminhos de dados de rede nativos, sintéticos e descarregados por hardware (RDMA) para problemas de conectividade, fragmentação de pacotes, baixa taxa de transferência e congestionamento.

Validar a replicação para a Réplica de Armazenamento

Se você estiver usando a Réplica de Armazenamento para replicar volumes em um cluster estendido ou cluster para cluster, há vários eventos e cmdlets que você pode usar para obter o estado da replicação.

No cenário a seguir, configuramos a Réplica de Armazenamento criando RGs (grupos de replicação) para dois sites e especificamos os volumes de dados e os volumes de log para os nós do servidor de origem no Site1 (Server1, Server2) e os nós de servidor de destino (replicados) no Site2 (Server3, Server4).

Para determinar o progresso da replicação do Server1 no Site1, execute o comando Get-WinEvent e examine os eventos 5015, 5002, 5004, 1237, 5001 e 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Para o Server3 no Site2, execute o comando a seguir Get-WinEvent para ver os eventos da Réplica de Armazenamento que mostram a criação da parceria. Esse evento indica o número de bytes copiados e o tempo gasto. Por exemplo:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Para o Server3 no Site2, execute o comando e examine os Get-WinEvent eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso do processamento. Não deve haver nenhum aviso de erro nessa sequência. Haverá muitos eventos 1237 - eles indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como alternativa, o grupo de servidores de destino do réplica declara o número de bytes restantes a serem copiados o tempo todo e pode ser consultado por meio do PowerShell com Get-SRGroup. Por exemplo:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Para o nó Server3 no Site2, execute o comando a seguir e examine os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso da replicação. Não deve haver avisos de erros. No entanto, haverá muitos eventos "1237" - estes simplesmente indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como um script de progresso que não será encerrado:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Para obter o estado de replicação dentro do cluster estendido, use Get-SRGroup e Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Depois que a replicação de dados bem-sucedida for confirmada entre sites, você poderá criar suas VMs e outras cargas de trabalho.

Confira também