Intégration de Git pour dossiers Git Databricks

Les dossiers Git Databricks constituent une API et un client Git visuel dans Azure Databricks. Il prend en charge les opérations Git courantes telles que le clonage d’un référentiel, la validation et l’envoi (push), le tirage (pull), la gestion de branche et la comparaison visuelle des différences lors de la validation.

Dans les dossiers Git, vous pouvez développer du code dans des notebooks ou d’autres fichiers et suivre les meilleures pratiques de développement de code d’ingénierie et de science des données en utilisant Git pour le contrôle de version, la collaboration et l’intégration continue et livraison continue.

Remarque

Les dossiers Git (Repos) sont principalement conçus pour la création et la collaboration de flux de travail.

Que pouvez-vous faire avec des dossiers Git Databricks ?

Les dossiers Git Databricks fournissent un contrôle de code source pour les projets de données et d’IA en s’intégrant aux fournisseurs Git.

Dans les dossiers Git Databricks, vous pouvez utiliser la fonctionnalité Git pour :

  • Cloner un dépôt Git distant, pousser (push) vers celui-ci et tirer (pull) depuis celui-ci.
  • Créez et gérez des branches pour le travail de développement, notamment la fusion, le rebasage et la résolution des conflits.
  • Créez des notebooks (y compris des notebooks IPYNB), et modifiez-les ainsi que d’autres fichiers.
  • Comparez visuellement les différences lors de la validation et résolvez les conflits de fusion.

Pour obtenir des instructions pas à pas, consultez Exécuter des opérations Git sur des dossiers Git (Repos) Databricks.

Remarque

Les dossiers Git Databricks disposent également d’une API que vous pouvez intégrer à votre pipeline CI/CD. Par exemple, vous pouvez mettre à jour par programmation un dépôt Databricks afin qu’il dispose toujours de la version de code la plus récente. Pour obtenir des informations sur les meilleures pratiques en matière de développement de code en tirant parti des dossiers Databricks Git, consultez Techniques CI/CD avec les dossiers Git et Databricks Git (Repos).

Pour plus d’informations sur les types de notebooks pris en charge dans Azure Databricks, consultez Exporter et importer des notebooks Databricks.

Fournisseurs Git pris en charge

Les dossiers Git Databricks sont soutenus par un référentiel Git intégré. Le référentiel peut être hébergé par l’un des fournisseurs Git cloud et d’entreprise listés dans la section suivante.

Remarque

Qu’est-ce qu’un « fournisseur Git » ?

Un « fournisseur Git » est le service spécifique (nommé) qui héberge un modèle de contrôle de code source basé sur Git. Les plateformes de contrôle de code source basées sur Git sont hébergées de deux façons : en tant que service cloud hébergé par l’entreprise de développement, ou en tant que service local installé et géré par votre propre entreprise sur son propre matériel. De nombreux fournisseurs Git tels que GitHub, Microsoft, GitLab et Atlassian fournissent à la fois des services Git basés sur le cloud et locaux (parfois appelés « auto-gérés »).

Lorsque vous choisissez votre fournisseur Git pendant la configuration, vous devez connaître les différences entre les fournisseurs Git locaux et cloud (SaaS). Les solutions locales sont généralement hébergées derrière un VPN d’entreprise, et peuvent ne pas être accessibles à partir d’Internet. En règle générale, les fournisseurs Git locaux ont un nom se terminant par « Server » ou « Self-Managed », mais si vous avez des doutes, contactez les administrateurs de votre entreprise ou passez en revue la documentation du fournisseur Git.

Si votre fournisseur Git est basé sur le cloud et non répertorié comme fournisseur pris en charge, la sélection « GitHub » en tant que votre fournisseur peut fonctionner, sans être garantie.

Remarque

Si vous utilisez « GitHub » en tant que fournisseur et que vous ne savez pas si vous utilisez la version cloud ou locale, consultez À propos de GitHub Enterprise Server dans la documentation de GitHub.

Fournisseurs Git cloud pris en charge par Databricks

  • GitHub, GitHub AE et GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab et GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Fournisseurs Git locaux pris en charge par Databricks

  • GitHub Enterprise Server
  • Atlassian BitBucket Server et Data Center
  • GitLab Self-Managed
  • Microsoft Azure DevOps Server : un administrateur de l’espace de travail doit explicitement établir une liste d’autorisation des préfixes de domaine d’URL pour votre Microsoft Azure DevOps Server, si l’URL ne correspond pas à dev.azure.com/* ou visualstudio.com/*. Pour en savoir plus, consultez Limiter l’utilisation aux URL d’une liste d’autorisation

Si vous intégrez un référentiel Git local qui n’est pas accessible à partir d’Internet, un proxy pour les requêtes d’authentification Git doit également être installé dans le VPN de votre entreprise. Pour obtenir plus d’informations, consultez Configurer la connectivité Git privée pour des dossiers Git (Repos) Azure Databricks.

Pour découvrir comment utiliser des jetons d’accès avec votre fournisseur Git, consultez Configurer des informations d’identification Git et connecter un référentiel distant à Azure Databricks.

Ressources pour l’intégration Git

Utilisez l’interface CLI Databricks 2.0 pour l’intégration de Git à Azure Databricks :

Lisez les documents de référence suivants :

Étapes suivantes