Como usar o metastore do Hive com o cluster Do Apache Spark™
Observação
Desativaremos o Microsoft Azure HDInsight no AKS em 31 de janeiro de 2025. Para evitar o encerramento abrupto das suas cargas de trabalho, você precisará migrá-las para o Microsoft Fabric ou para um produto equivalente do Azure antes de 31 de janeiro de 2025. Os clusters restantes em sua assinatura serão interrompidos e removidos do host.
Somente suporte básico estará disponível até a data da aposentadoria.
Importante
Esse recurso está atualmente na visualização. Os Termos de uso complementares para versões prévias do Microsoft Azure incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, confira Informações sobre a versão prévia do Azure HDInsight no AKS. No caso de perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para ver mais atualizações sobre a Comunidade do Azure HDInsight.
É essencial compartilhar os dados e o metastore entre vários serviços. Um dos metastore normalmente usados no metastore do HIVE. O HDInsight no AKS permite que os usuários se conectem ao metastore externo. Essa etapa permite que os usuários do HDInsight se conectem perfeitamente a outros serviços no ecossistema.
O Azure HDInsight no AKS dá suporte a metastores personalizados, que são recomendados para clusters de produção. As principais etapas envolvidas são
- Criar um Banco de Dados SQL do Azure
- Criar um cofre de chaves para armazenar as credenciais
- Configurar o Metastore enquanto você cria um HDInsight no cluster do AKS com o Apache Spark™
- Operar no Metastore Externo (mostra bancos de dados e faz uma seleção de limite 1).
Ao criar o cluster, o serviço HDInsight precisa se conectar ao metastore externo e verificar suas credenciais.
Criar um Banco de Dados SQL do Azure
Crie ou tenha um Banco de Dados SQL do Azure existente antes de configurar um metastore do Hive personalizado para um cluster HDInsight.
Observação
Atualmente, oferecemos suporte apenas ao Banco de Dados SQL do Azure para metastore do HIVE. Devido à limitação do Hive, não há suporte para o caractere "-" (hífen) no nome do banco de dados metastore.
Criar um cofre de chaves para armazenar as credenciais
Crie um Cofre de chaves do Azure.
O propósito do Key Vault é permitir que você armazene o conjunto de senhas de administrador do SQL Server durante a criação do banco de dados SQL. A plataforma HDInsight no AKS não lida diretamente com a credencial. Portanto, é necessário armazenar suas credenciais importantes no Azure Key Vault. Conheça as etapas para criar um Azure Key Vault.
Após a criação do Azure Key Vault, atribua as seguintes funções
Objeto Função Comentários Identidade Gerenciada Atribuída pelo Usuário (a mesma usada pelo cluster do HDInsight) Usuário de Segredos do Key Vault Saiba como Atribuir uma função à Identidade Gerenciada Atribuída pelo Usuário Usuário (quem cria o segredo no Azure Key Vault) Administrador do Key Vault Saiba como Atribuir função ao usuário. Observação
Sem essa função, o usuário não poderá criar um segredo.
-
Esta etapa permite que você mantenha sua senha de administrador do SQL Server como um segredo no Azure Key Vault. Adicione sua senha (mesma senha fornecida no BD SQL para administrador) no campo "Valor" ao adicionar um segredo.
Observação
Anote o nome do segredo, pois precisará dele durante a criação do cluster.
Configurar o Metastore enquanto cria um cluster HDInsight Spark
Navegue até o HDInsight no pool de clusters do AKS para criar clusters.
Habilite o botão de alternância para adicionar metastore de hive externo e preencha os detalhes a seguir.
O restante dos detalhes deve ser preenchido de acordo com as regras de criação de cluster para o cluster do Apache Spark no HDInsight no AKS.
Clique em Examinar e Criar.
Observação
- O ciclo de vida do metastore não está associado a um ciclo de vida de clusters e, portanto, é possível criar e excluir clusters sem perder metadados. Os metadados, como os esquemas do Hive, persistem mesmo depois de excluir e recriar o cluster HDInsight.
- Um metastore personalizado permite que você anexe vários clusters e tipos de cluster ao metastore.
Operar em metastore externo
Criar uma tabela
>> spark.sql("CREATE TABLE sampleTable (number Int, word String)")
Adicionar dados à tabela
>> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\
Leia a tabela
>> spark.sql("select * from sampleTable").show()
Referência
- Apache, Apache Spark, Spark e nomes de projeto de software livre associados são marcas comerciais da Apache Software Foundation (ASF).