Outils de développement

Databricks fournit un écosystème d’outils pour vous aider à développer des applications et des solutions qui s’intègrent à Azure Databricks et gèrent par programme les ressources et les données Databricks.

Cet article fournit une vue d’ensemble de ces outils et recommandations pour les meilleurs outils pour les scénarios de développement courants.

Quels outils Databricks fournit-t-il aux développeurs ?

Le tableau suivant fournit la liste des outils de développement fournis par Databricks.

Outil Description
Authentification et autorisation Configurez l’authentification et l’autorisation pour vos outils, scripts et applications pour qu’elles fonctionnent avec Azure Databricks.
Databricks Connect Connectez-vous à Azure Databricks à l’aide d’environnements de développement intégrés populaires tels que PyCharm, IntelliJ IDEA, Eclipse, RStudio et JupyterLab.

Si vous utilisez Visual Studio Code, Databricks recommande l’extension Databricks pour Visual Studio Code, qui est basée sur Databricks Connect, car elle fournit des fonctionnalités supplémentaires pour faciliter la configuration.
Extension Databricks pour Visual Studio Code Connectez-vous à vos espaces de travail Azure Databricks distants à partir de l’environnement de développement intégré (IDE) Visual Studio Code .
Plug-in PyCharm Databricks Configurez une connexion à un espace de travail Databricks distant et exécutez des fichiers sur des clusters Databricks à partir de PyCharm. Ce plug-in est développé et fourni par JetBrains en partenariat avec Databricks.
SDK Databricks Automatisez Azure Databricks à partir de bibliothèques de code écrites pour des langages populaires tels que Python, Java, Go et R. Au lieu d’envoyer des appels d’API REST directement à l’aide de curl/Postman, vous pouvez utiliser un SDK pour interagir avec Databricks à l’aide d’un langage de programmation de votre choix.
Pilotes et outils SQL Connectez-vous à Azure Databricks pour exécuter des commandes et des scripts SQL, interagissez par programme avec Azure Databricks et intégrez des fonctionnalités SQL Azure Databricks dans des applications écrites dans des langages populaires tels que Python, Go, JavaScript et TypeScript.
Interface CLI Databricks Accédez à la fonctionnalité Azure Databricks à l’aide de l’interface de ligne de commande (interface CLI) Databricks. L’interface CLI encapsule l’API REST Databricks. Au lieu d’envoyer des appels d’API REST directement à l’aide de curl ou Postman, vous pouvez utiliser l’interface CLI Databricks pour interagir avec Databricks.
Packs de ressources Databricks Implémentez les meilleures pratiques de développement, de test et de déploiement standard pour vos projets Azure Databricks et IA à l’aide de DaBs (Databricks Asset Bundles).
Fournisseur Databricks Terraform et Terraform CDKTF pour Databricks Provisionnez l’infrastructure et les ressources Azure Databricks à l’aide de Terraform.
Fournisseur de ressources Pulumi Databricks Provisionnez l’infrastructure et les ressources Azure Databricks à l’aide de Pulumi infrastructure-as-code (IaC).
Outils CI/CD Intégrez des systèmes ci/CD populaires et des frameworks tels que GitHub Actions, Jenkins et Apache Airflow.

Conseil

Vous pouvez également connecter de nombreux outils tiers connus supplémentaires à des clusters et à des entrepôts SQL pour accéder aux données dans Azure Databricks. Consultez les partenaires technologiques.

Quel outil de développement dois-je utiliser ?

Le tableau suivant présente les recommandations de l’outil Databricks pour les scénarios de développement courants.

Scénarios Recommandation
- Développement interactif et débogage à partir d’un IDE local Extension Databricks pour Visual Studio Code

Plug-in PyCharm Databricks

Pour d’autres IDE, utilisez l’interface CLI Databricks avec Databricks Connect
- Interaction directe avec Databricks à partir de la ligne de commande
- Script d’interpréteur de commandes
-Expérimentation
- Appeler directement l’API REST
- Gérer les profils d’authentification locale
- Synchroniser le code de l’IDE vers l’espace de travail Databricks
Interface CLI Databricks
- Gérer les flux de travail et déployer des projets sur Databricks
- Appliquer les meilleures pratiques CI/CD
- Co-version, co-auteur, co-déployer vos ressources et ressources en tant qu’unité
- Prend en charge les ressources les plus courantes
Bundles de ressources Databricks (fonctionnalité de l’interface CLI)
- Infrastructure en tant que code, CI/CD
- Administrer et créer des espaces de travail, des catalogues, des metastores et appliquer des autorisations
- Garantir la portabilité de l’environnement et la récupération d’urgence
- De nombreuses ressources prises en charge
Fournisseur Databricks Terraform
- Développement d’applications
- Intégrer à des systèmes de déploiement existants
- Créer des flux de travail Databricks personnalisés et de nouveaux services web
Kit de développement logiciel (SDK) Python Databricks

Kit de développement logiciel (SDK) Java Databricks

Kit de développement logiciel (SDK) Databricks Go

Kit de développement logiciel (SDK) Databricks R
- Scénarios avancés uniquement
- Presque toutes les ressources Databricks sont disponibles
API REST Databricks