Erros de criação de cluster no Azure HDInsight no AKS

Observação

Desativaremos o Microsoft Azure HDInsight no AKS em 31 de janeiro de 2025. Para evitar o encerramento abrupto das suas cargas de trabalho, você precisará migrá-las para o Microsoft Fabric ou para um produto equivalente do Azure antes de 31 de janeiro de 2025. Os clusters restantes em sua assinatura serão interrompidos e removidos do host.

Apenas o suporte básico estará disponível até a data de desativação.

Importante

Esse recurso está atualmente na visualização. Os Termos de uso complementares para versões prévias do Microsoft Azure incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, confira Informações sobre a versão prévia do Azure HDInsight no AKS. Caso tenha perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para ver mais atualizações sobre a Comunidade do Azure HDInsight.

Este artigo descreve como solucionar problemas e resolver erros que podem ocorrer quando você cria o Azure HDInsight em clusters do AKS.

Sr. Não Mensagem de erro Causa Solução
1 InternalServerError UnrecognizableError Esse erro pode indicar um modelo incorreto usado. Atualmente, os conectores de banco de dados são permitidos somente por meio do modelo do ARM. Portanto, a validação da configuração não é possível no modelo.
2 InvalidClusterSpec – ServiceDependencyFailure – Configuração inválida Erro de máximo de memória por nó. Confira os tipos de valor da propriedade de configuração de memória máxima.
3 WaitingClusterResourcesReadyTimeOut - Metastoreservice não pronto Esse erro pode ser devido ao nome do contêiner conter apenas letras minúsculas, números e hifens. O nome do contêiner deve começar com uma letra ou um número. Cada hífen deve ser precedido e seguido por um caractere não de hifen. O nome também precisa ter entre 3 e 63 caracteres.
4 InvalidClusterSpec -Configuração inválida - ClusterUpsertActivity Erro: propriedade de configuração hive.metastore.uri: may not be null inválida. Confira a documentação do conector do Hive.
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call. Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
6 InternalServerError - ObjectDisposedException ocorre no código RP. Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
7 PreconditionFailed - Falha na operação devido aos limites de cota na assinatura do usuário. Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados na mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e o outro falhe devido à escassez de cotas. Confirme se há cota suficiente e tente novamente realizar a criação do cluster/pool de clusters.
8 ReconcileApplicationSecurityGroupError - Erro interno do AKS Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
9 ResourceGroupBeingDeleted Durante a criação ou atualização de recursos do HDI no AKS, o usuário também está excluindo alguns recursos em grupos de recursos relacionados. Não exclua recursos em grupos de recursos relacionados ao HDI quando o HDI nos recursos do AKS estiver sendo criado ou atualizado.
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out. Problema do AKS – pode ser devido ao alto tráfego em uma determinada região no momento da operação. Repita a operação após algum tempo. Se possível, use outra região.
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} O princípio do serviço 1-p não está integrado ao locatário. Execute o comando para provisionar o princípio do serviço 1-p no novo locatário a ser integrado.
12 NotFound - ARM/AKS sdk error O usuário tenta atualizar o HDI no cluster do AKS, mas o pool de agentes correspondente foi excluído. O pool de agentes correspondente foi excluído. Não é recomendável operar diretamente o pool de agentes do AKS.
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi Falta de permissão para executar a operação. Verifique se a ID do aplicativo de princípio de serviço mencionada na mensagem de erro pertence a você. Se sim, conceda a permissão de acordo com a mensagem de erro. Se não, abra um tíquete de suporte para a equipe do Azure HDInsight.
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} O RP mudou para uma nova instância de função inesperadamente. repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
15 EntityStoreOperationError - ARM/AKS sdk error Uma operação de banco de dados falhou no lado do AKS durante a atualização do cluster. Repita a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} Esse erro causou vários problemas. repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} Esse erro causou vários problemas. tente novamente realizar a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
18 InternalServerError - Null reference exception occurs in RP code. Esse erro causou vários problemas. Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} Esse erro causou vários problemas. repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} Esse erro causou vários problemas. repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight.
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. Outra operação de pool de agentes (colocação em escala) está em andamento. Esse erro foi causado devido à reinicialização do Service Fabric do RP. Aguarde até que a operação anterior seja concluída antes de iniciar uma nova operação. Se o problema persistir após a repetição, abra um tíquete de suporte para a equipe do Azure HDInsight.
22 ReconcileVMSSAgentPoolFailed Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e os outros falhem devido à escassez de cotas. Confirme se há cota suficiente e tente novamente realizar a criação do cluster/pool de clusters.
23 ReconcileVMSSAgentPoolFailed - Não é possível estabelecer a conexão de saída dos agentes AKS/VMSS problema lateral: a VM relatou uma falha. tente novamente realizar a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} Esse erro foi devido a um problema transitório de conexão SQL. tente novamente realizar a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
25 NotLatestOperation - ARM/AKS SDK error A operação não pode continuar. A operação foi impedida por outra ou as informações necessárias para a operação não foram salvas (ou ainda não foram salvas). tente novamente realizar a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed Houve um problema com a operação de redução vertical. Abra um tíquete de suporte para a equipe do Azure HDInsight.
27 ResourceNotFound - ARM/AKS SDK error Esse problema de erro ocorre quando um recurso necessário é removido/excluído pelo usuário. Verifique se o recurso mencionado na mensagem de erro existe e tente realizar a operação novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.]. A inicialização do HMS pode acabar devido a problemas relacionados ao SQL Server ou ao armazenamento. Abra um tíquete de suporte para a equipe do Azure HDInsight.
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.]. Esse erro pode ocorrer devido a keyvault estar inacessível ou a chave secreta não estar disponível. Em alguns casos raros, esse erro pode ser devido à inicialização mais lenta da infraestrutura de identidade do pod nos nós do cluster. Se você tiver o Log Analytics habilitado, verifique os logs de secretprovider-validate job para identificar o motivo. Repita a operação após algum tempo e, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} Esse erro pode ocorrer devido a vários motivos, como problema de pull de imagem ou pods de controlador não prontos ou um problema com MSI. Tente novamente realizar a operação após algum tempo e, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} Esse erro pode ocorrer devido a vários motivos, como problema de pull de imagem ou pods de controlador não prontos ou um problema com MSI. Tente novamente realizar a operação após algum tempo e, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}'. Esse erro poderá ocorrer se a configuração do serviço consistir em componentes que não são permitidos. Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies. Esse erro pode ocorrer devido aos serviços HMS, SPARK, YARN se encontrarem inativos, esse erro pode estar relacionado ao armazenamento. Abra um tíquete de suporte para a equipe do Azure HDInsight.
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. Abra um tíquete de suporte para a equipe do Azure HDInsight.
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} Esse erro pode ocorrer devido aos serviços HMS, SPARK, YARN se encontrarem inativos, esse erro pode estar relacionado ao armazenamento. Abra um tíquete de suporte para a equipe do Azure HDInsight.
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value]. Esse erro pode ocorrer quando arquivos sem suporte são passados na configuração de serviços. Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." Parâmetros de autenticação inválidos – o local de armazenamento está inacessível. Corrigir parâmetros de autenticação e tentar novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.]. Esse erro pode ocorrer quando os recursos de identidade do pod demoram muito para iniciar no nó quando o pod HMS está agendado. Repita a operação e, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight.

Próximas etapas