Configurar credenciais do Git e conectar um repositório remoto ao Azure Databricks

Este artigo descreve como configurar suas credenciais do Git no Databricks para que você possa conectar um repositório remoto usando pastas Git do Databricks (anteriormente Repos).

Para obter uma lista de provedores Git suportados (na nuvem e no local), leia Provedores Git suportados.

GitHub e GitHub AE

As informações a seguir se aplicam aos usuários do GitHub e do GitHub AE.

Por que usar o Aplicativo GitHub do Databricks em vez de um PAT?

As pastas Git do Databricks permitem que você escolha o Aplicativo Databricks GitHub para autenticação de usuário em vez de PATs se você estiver usando uma conta do GitHub hospedada. O uso do Aplicativo GitHub fornece os seguintes benefícios em PATs:

  • Ele utiliza o OAuth 2.0 para a autenticação de usuários. O tráfego do repositório OAuth 2.0 é criptografado para maior segurança.
  • É mais fácil integrar (veja as etapas abaixo) e não exige o rastreamento individual de tokens.
  • A renovação do token é tratada automaticamente.
  • A integração pode ser definida com escopo para repositórios Git anexados específicos, permitindo um controle mais granular sobre o acesso.

Importante

De acordo com a integração padrão do OAuth 2.0, o Databricks armazena os tokens de acesso e atualização de um usuário–todos os outros controles de acesso são tratados pelo GitHub. Os tokens de acesso e atualização seguem as regras de expiração padrão do GitHub com tokens de acesso expirando após 8 horas (o que minimiza o risco em caso de vazamento de credenciais). Os tokens de atualização têm um tempo de vida de 6 meses se não forem utilizados. As credenciais vinculadas expiram após 6 meses de inatividade, exigindo que o usuário as reconfigure.

Opcionalmente, você pode criptografar tokens do Databricks usando CMK (chaves gerenciadas pelo cliente).

Observação

  • Não há suporte para esse recurso no GitHub Enterprise Server. Em vez disso, utilize um token de acesso pessoal.

No Azure Databricks, vincule sua conta do GitHub na página Configurações do usuário:

  1. No canto superior direito de qualquer página, clique no seu nome de usuário e selecione Configurações.

  2. Selecione a guia Contas vinculadas.

  3. Altere seu provedor para GitHub, selecione Vincular conta do Git e clique em Link.

    Vincular conta no Databricks

  4. A página de autorização do Aplicativo Databricks GitHub é exibida. Autorize o aplicativo do GitHub a concluir a instalação, o que permite que o Databricks atue em seu nome ao executar operações Git em pastas Git (como clonar um repositório). Consulte a documentação do GitHub para obter mais detalhes sobre a autorização do aplicativo.

    Página de autorização do aplicativo GitHub do Databricks

  5. Para permitir o acesso aos repositórios do GitHub, siga as etapas abaixo para instalar e configurar o aplicativo GitHub do Databricks.

Instalar e configurar o Aplicativo Databricks GitHub para permitir o acesso a repositórios

Você pode instalar e configurar o Aplicativo Databricks GitHub nos repositórios do GitHub que deseja acessar das pastas Git do Databricks. Consulte a documentação do GitHub para obter mais detalhes sobre a instalação do aplicativo.

  1. Abra a página de instalação do Aplicativo Databricks GitHub.

  2. Selecione a conta que possui os repositórios que você deseja acessar.

    Página de instalação do aplicativo GitHub do Databricks

  3. Se você não for um proprietário da conta, deverá ter o proprietário da conta instalado e configurar o aplicativo para você.

  4. Se você for o proprietário da conta, instale o aplicativo do GitHub. Instalá-lo fornece acesso de leitura e gravação ao código. O código só é acessado em nome dos usuários (por exemplo, quando um usuário clona um repositório em pastas Git do Databricks).

  5. Opcionalmente, você pode conceder acesso a apenas um subconjunto de repositórios selecionando a opção Somente selecionar repositórios.

Conectar-se a um repositório do GitHub usando um token de acesso pessoal

No GitHub, siga estas etapas para criar um token de acesso pessoal que permita o acesso aos seus repositórios:

  1. No canto superior direito de qualquer página, clique na foto do seu perfil e em Configurações.
  2. Clique em Configurações de desenvolvedor.
  3. Clique na guia Tokens de acesso pessoal no painel esquerdo e, em seguida, Tokens (clássicos).
  4. Clique no botão Gerar novo token.
  5. Insira uma descrição para o token.
  6. Selecione o escopo do repositório e do fluxo de trabalho e clique no botão Gerar token. O escopo do fluxo de trabalho é necessário caso o repositório tenha fluxos de trabalho do GitHub Action.
  7. Copie o token para a área de transferência. Insira esse token no Azure Databricks em configurações de Usuário > Contas vinculadas.

Para usar o logon único, consulte Autorizando um token de acesso pessoal para uso com o logon único do SAML.

Observação

Está tendo problemas para instalar o Aplicativo Github do Databricks em sua conta ou organização? Consulte a Documentação de instalação do Aplicativo GitHub para obter diretrizes para solucionar problemas.

Conecte-se a um repositório GitHub usando um token de acesso pessoal refinado

Como prática recomendada, use um PAT refinado que conceda acesso apenas aos recursos que você acessará em seu projeto. No GitHub, siga essas etapas para criar um PAT refinado que permita acesso aos seus repositórios:

  1. No canto superior direito de qualquer página, clique na foto do seu perfil e em Configurações.

  2. Clique em Configurações de desenvolvedor.

  3. Clique na guia Tokens de acesso pessoal no painel esquerdo e, em seguida, Tokens refinados.

  4. Clique no botão Gerar novo token no canto superior direito da página para abrir a página Novo token de acesso pessoal refinado.

    Gerar token do GitHub

  5. Configure seu novo token refinado a partir das seguintes configurações:

    • Nome do token: Forneça um nome de token exclusivo. Anote em algum lugar para não esquecer ou perder!

    • Expiração: Selecione o período de expiração do token. O padrão é “30 dias”.

    • Descrição: Adicione um pequeno texto descrevendo a finalidade do token.

    • Proprietário do recurso: O padrão é seu ID GitHub atual. Defina isso como a organização do GitHub que possui o(s) repositório(s) que você acessará.

    • Em Acesso ao repositório, escolha o escopo de acesso do seu token. Como prática recomendada, selecione apenas os repositórios que você usará para controle de versão da pasta Git.

    • Em Permissions, configure os níveis de acesso específicos concedidos por esse token para os repositórios e conta com os quais você trabalhará. Para obter mais detalhes sobre os grupos de permissão, leia Permissões necessárias para tokens de acesso pessoal refinados na documentação do GitHub.

      Defina as permissões de acesso para Conteúdos como Leitura e Gravação. (Você encontra o escopo Conteúdos em Permissões de repositório.) Para obter detalhes sobre esse escopo, consulte a documentação do GitHub sobre o escopo Conteúdos.

      Configurar as permissões de um Git PAT refinado para leitura e gravação por meio da interface do usuário do GitHub

  6. Clique no botão Gerar token.

  7. Copie o token para a área de transferência. Insira esse token no Azure Databricks em configurações de Usuário > Contas vinculadas.

GitLab

No GitLab, siga estas etapas para criar um token de acesso pessoal que permita o acesso aos seus repositórios:

  1. No GitLab, clique no ícone do usuário no canto superior esquerdo da tela e selecione Preferências.

  2. Clique em Tokens de Acesso na barra lateral.

  3. Clique em Adicionar novo token na seção Tokens de acesso pessoal da página.

    Gerar token do GitLab

  4. Insira um nome para o token.

  5. Selecione os escopos específicos para fornecer acesso marcando as caixas dos níveis de permissão desejados. Para mais detalhes sobre as opções de escopo, leia a documentação do GitLab sobre escopos PAT.

  6. Clique em Criar token de acesso pessoal.

  7. Copie o token para a área de transferência. Insira esse token no Azure Databricks em Configurações de Usuário > Contas vinculadas.

Confira a documentação do GitLab para saber como criar e gerenciar tokens de acesso pessoal.

O GitLab também fornece suporte para acesso refinado usando “Project Access Tokens”. Você pode usar tokens de acesso do projeto para definir o escopo do acesso a um projeto GitLab. Para mais detalhes, leia a documentação do GitLab sobre Project Access Tokens.

Azure DevOps Services

Conecte-se a um repositório do Azure DevOps usando o Microsoft Entra ID

A autenticação com o Azure DevOps Services é feita automaticamente quando você autentica usando o Microsoft Entra ID. A organização do Azure DevOps Services deve estar vinculada ao mesmo locatário do Microsoft Entra ID que o Databricks. O ponto de extremidade de serviço do Microsoft Entra ID deve estar acessível a partir das sub-redes privada e pública do workspace do Databricks. Para obter mais informações, consulte Implantar o Azure Databricks em sua Rede Virtual do Azure (Injeção de VNet).

No Azure Databricks, defina seu provedor Git Azure DevOps Services na página Configurações Usuário:

  1. No canto superior direito de qualquer página, clique no seu nome de usuário e selecione Configurações.

  2. Selecione a guia Contas vinculadas.

  3. Mude seu provedor para Azure DevOps Services.

    Provedor GitHub do Azure DevOps Services

Conectar-se a um repositório de DevOps do Azure usando um token

As etapas a seguir mostram como conectar um repositório do Azure Databricks a um repositório do Azure DevOps quando eles não estiverem na mesma locação do Microsoft Entra ID.

O ponto de extremidade de serviço do Microsoft Entra ID deve estar acessível a partir da sub-rede privada e pública do workspace do Databricks. Para obter mais informações, consulte Implantar o Azure Databricks em sua Rede Virtual do Azure (Injeção de VNet).

Obtenha um token de acesso para o repositório no Azure DevOps:

  1. Acesse dev.azure.com e entre na organização de DevOps que contém o repositório ao qual você deseja conectar o Azure Databricks.
  2. No lado superior direito, clique no ícone Configurações do usuário e selecione Tokens de acesso pessoais.
  3. Clique em + Novo Token.
  4. Insira informações no formulário:
    1. Nomeie o token.
    2. Selecione o nome da organização, que é o nome do repositório.
    3. Definir a data de expiração.
    4. Escolha o escopo necessário, como Acesso completo.
  5. Copie o token de acesso exibido.
  6. Insira esse token no Azure Databricks em Configurações de Usuário > Contas vinculadas.
  7. Em nome de usuário ou email do provedor Git, insira o endereço de email usado para fazer logon na organização do DevOps.

Bitbucket

Observação

Databricks não suporta tokens de acesso ao repositório Bitbucket ou tokens de acesso ao projeto.

No Bitbucket, siga estas etapas para criar uma senha de aplicativo que permita o acesso aos seus repositórios:

  1. Acesse o Bitbucket Cloud e crie uma senha de aplicativo que permita o acesso aos repositórios. Confira a documentação do Bitbucket Cloud.
  2. Registre a senha de maneira segura.
  3. No Azure Databricks, insira essa senha em Configurações do Usuário > Contas vinculadas.

Outros provedores Git

Se o provedor Git não estiver listado, selecionar "GitHub" e fornecer o PAT obtido do seu provedor Git geralmente funcionará, mas não há garantia de que funcione.