Solucionar problemas do servidor Nexus do Operador do Azure

Este artigo descreve como solucionar problemas de servidor usando ações de reiniciar, refazer imagem e substituir em BMMs (computadores bare-metal) do Nexus do Operador do Azure. Talvez seja necessário executar essas ações em seu servidor por motivos de manutenção, o que causa uma breve interrupção em BMMs específicos.

O tempo necessário para concluir cada uma dessas ações é semelhante. A reinicialização é a mais rápida, enquanto a substituição leva um pouco mais de tempo. Todas as três ações são métodos simples e eficientes para a solução de problemas.

Cuidado

Não execute nenhuma ação nos servidores de gerenciamento sem antes consultar a equipe de suporte da Microsoft. Isso pode afetar a integridade do cluster do Nexus do Operador.

Pré-requisitos

  • Familiarize-se com os recursos mencionados neste artigo revisando as ações do BMM.
  • Reúna as seguintes informações:
    • Nome do grupo de recursos do BMM
    • Nome do BMM que requer uma operação de gerenciamento de ciclo de vida

Importante

As solicitações de comando disruptivas em um nó do KCP (plano de controle do Kubernetes) serão rejeitadas se houver outro comando de ação disruptiva já em execução em outro nó do KCP ou se o KCP completo não estiver disponível.

Reiniciar, refazer imagem e substituir são consideradas ações de interrupção.

Essa verificação é feita para manter a integridade da instância do Nexus e garantir que vários nós do KCP não fiquem inoperantes ao mesmo tempo devido a ações simultâneas de interrupção. Se vários nós ficarem inoperantes, isso quebrará o limite de quórum íntegro do plano de controle do Kubernetes.

Identificar a ação corretiva

Ao solucionar problemas de falhas em um BMM e determinar a melhor ação corretiva, é importante entender as opções disponíveis. Reiniciar ou refazer imagem de um BMM pode ser uma maneira eficiente e eficaz de corrigir problemas ou restaurar o software em um local reconhecidamente bom. Pode ser necessário substituir um BMM quando um ou mais componentes de hardware falharem no servidor. Este artigo fornece orientações sobre as melhores práticas para cada uma das três ações.

A solução de problemas técnicos requer uma abordagem sistemática. Um método eficaz é começar com a solução menos invasiva e ir avançando até medidas mais complexas e drásticas, se necessário.

A primeira etapa da solução de problemas geralmente é tentar reiniciar o dispositivo ou o sistema. Reiniciar pode ajudar a eliminar falhas ou erros temporários que possam estar causando o problema. Se reiniciar não resolver o problema, a próxima etapa poderá ser tentar refazer a imagem do dispositivo ou do sistema.

Se refazer a imagem não resolver o problema, a etapa final poderá ser a substituição do componente de hardware defeituoso. A substituição pode ser uma medida mais drástica, mas pode ser necessária se o problema estiver relacionado a um mau funcionamento do hardware.

Lembre-se de que esses métodos de solução de problemas podem nem sempre ser eficazes e que outros fatores em jogo podem exigir uma abordagem diferente.

Solucionar problemas com uma ação de reiniciar

Reiniciar um BMM é um processo de reinicialização do servidor por meio de uma simples chamada de API. Essa ação pode ser útil para solucionar problemas quando as máquinas virtuais do locatário no host não estão respondendo ou estão travadas.

Normalmente, reiniciar é o ponto de partida para mitigar um problema.

Solucionar problemas com uma ação de refazer imagem

Refazer a imagem de um BMM é um processo que você usa para reimplantar a imagem no disco do sistema operacional, sem afetar os dados do locatário. Essa ação executa as etapas para reingressar no cluster com os mesmos identificadores.

A ação de refazer imagem pode ser útil para solucionar problemas, restaurando o sistema operacional para um estado de funcionamento reconhecidamente bom. As causas comuns que podem ser resolvidas ao refazer a imagem incluem a recuperação devido a dúvidas sobre a integridade do host, comprometimento de segurança suspeito ou confirmado ou atividade de gravação "break glass".

Uma ação de refazer imagem é a melhor prática para o menor risco operacional e para garantir a integridade do BMM.

Solucionar problemas com uma ação de substituir

Os servidores contêm muitos componentes físicos que podem falhar com o tempo. É importante entender quais reparos físicos exigem a substituição do BMM e quando a substituição do BMM é recomendada, mas não necessária.

Um processo de validação de hardware é invocado para garantir a integridade do host físico antes da implantação da imagem do sistema operacional. Assim como a ação de refazer imagem, os dados do locatário não são modificados durante a substituição.

Importante

A partir da versão GA da API 2024-07-01, o controlador RAID é redefinido durante a substituição do BMM, apagando todos os dados dos discos virtuais do servidor. Os alertas de disco virtual do controlador BMC (BMC) acionados durante a substituição do BMM podem ser ignorados, a menos que haja alertas adicionais de discos físicos e/ou controladores RAID.

Como melhor prática, primeiro emita um comando cordon para remover o computador bare-metal do agendamento da carga de trabalho e, em seguida, desligue o BMM antes dos reparos físicos.

Quando estiver executando um reparo físico de uma fonte de alimentação intercambiável, não será necessária uma ação de substituição, pois o host do BMM continuará funcionando normalmente após o reparo.

Quando estiver executando os seguintes reparos físicos, recomendamos uma ação de substituição, embora não seja necessário colocar o BMM novamente em serviço:

  • CPU
  • DIMM (Dual In-Line Memory Module)
  • Ventoinha
  • Placa de expansão riser
  • Transceptor
  • Substituição do cabo Ethernet ou de fibra

Ao executar os seguintes reparos físicos, é necessária uma ação de substituição para colocar o BMM novamente em serviço:

  • Backplane
  • Placa do sistema
  • Disco SSD
  • Adaptador PERC/RAID
  • NIC (placa de interface de rede virtual) Mellanox
  • NIC incorporada da Broadcom

Resumo

Reiniciar, refazer imagem e substituir são métodos eficazes de solução de problemas que você pode usar para resolver problemas técnicos. Entretanto, é importante ter uma abordagem sistemática e considerar outros fatores antes de tentar qualquer medida drástica. Mais detalhes sobre as ações do BMM podem ser encontrados no artigo Ações do BMM.

Se você ainda tiver dúvidas, entre em contato com o suporte. Para obter mais informações sobre planos de suporte, veja Planos de Suporte do Azure.