Configurer votre projet Databricks à l’aide de l’extension Databricks pour Visual Studio Code

L’extension Databricks pour Visual Studio Code offre une vue Configuration dans le panneau d’extension qui vous permet de configurer et de mettre à jour facilement les paramètres de votre projet Databricks. Ces fonctionnalités incluent un sélecteur de déploiement d’espace de travail cible, une configuration simple de l’authentification et du calcul, la synchronisation des dossiers de l’espace de travail et des étapes simples pour activer l’environnement virtuel Python nécessaire au débogage.

La vue Configuration dans l’extension Databricks pour Visual Studio Code est disponible une fois que vous avez créé ou migré un projet vers un projet Databricks. Consultez Créer un nouveau projet Databricks.

Remarque

Les versions antérieures de l’extension Databricks pour les paramètres de configuration définis par Visual Studio Code dans un fichier JSON de projet et les variables d’environnement ont été définies dans le terminal. Dans la version de mise en production, la configuration du projet et de l’environnement se trouve dans les fichiers databricks.yml et databricks.env.

Si votre projet est un pack de ressources Databricks, l’interface utilisateur d’extension Databricks fournit également un Explorateur de ressources du pack et une Vue des variables du pack pour gérer les ressources et les variables de votre pack. Consultez Fonctionnalités d’extension des packs de ressources Databricks.

Modifier l’espace de travail de déploiement cible

Pour sélectionner ou changer la cible de déploiement de votre projet Databricks (par exemple, pour passer d’une cible dev à une cible prod) :

  1. Dans la vue Configuration du panneau d’extension Databricks, cliquez sur l’icône d’engrenage (Sélectionner une cible packs de ressources Databricks) associée à Cible.

    Sélectionner une cible packs de ressources Databricks

  2. Dans la palette de commandes, sélectionnez la cible de déploiement souhaitée.

Une fois qu’une cible est configurée, l’hôte et le Mode de déploiement s’affiche. Pour plus d’informations sur les modes de déploiement packs de ressources Databricks, consultez Modes de déploiement packs de ressources Databricks.

L’hôte de l’espace de travail peut être modifié en modifiant le paramètre cible workspace dans le fichier de configuration databricks.yml associé au projet. Voir Cibles.

Remarque

L’extension Databricks suivante pour les fonctionnalités de Visual Studio Code n’est disponible que lorsque le mode de déploiement cible est le développement :

  • Utiliser le cluster de développement attaché pour les travaux groupés
  • Synchroniser les fichiers de dossiers de l’espace de travail
  • Sélectionner un cluster de développement interactif

Configurer le profil Databricks pour le projet

Lorsque vous créez un projet Databricks ou migrez un projet pour être un projet Databricks, vous configurez un profil qui inclut les paramètres d’authentification utilisés pour se connecter à Databricks. Si vous souhaitez modifier le profil d’authentification utilisé, cliquez sur l’icône d’engrenage associée à AuthType dans la vue Configuration.

Pour plus d’informations sur l’extension Databricks pour l’authentification Visual Studio Code, consultez Configuration de l’authentification pour l’extension Databricks pour Visual Studio Code.

Sélectionner un cluster pour l’exécution de code et de travaux

À l’aide de l’extension Databricks pour Visual Studio Code, vous pouvez sélectionner un cluster Azure Databricks existant ou créer un cluster Azure Databricks pour exécuter votre code et vos travaux. Une fois que vous êtes connecté au calcul, l’ID du cluster, la version de Databricks Runtime, le créateur, l’état et le mode d’accès s’affichent. Vous pouvez également démarrer et arrêter le cluster, puis accéder directement aux détails de la page du cluster.

Conseil

Si vous ne souhaitez pas attendre que le cluster de travaux démarre, vérifiez Remplacer le cluster de tâches dans le bundle juste en dessous de la sélection du cluster pour utiliser le cluster sélectionné pour exécuter des travaux groupés en mode de développement.

Utiliser un cluster existant

Si vous avez un cluster Azure Databricks existant que vous souhaitez utiliser :

  1. Dans la vue Configuration, en regard de Cluster, cliquez sur Sélectionner un cluster ou l’icône d’engrenage (Configurer le cluster).

    Configurer le cluster

  2. Dans la palette de commandes, sélectionnez le cluster que vous souhaitez utiliser.

Créer un cluster

Si vous n’avez pas de cluster Azure Databricks existant, ou si vous souhaitez en créer un :

  1. Dans la vue Configuration, en regard de Cluster, cliquez sur l’icône d’engrenage (Configurer le cluster).

  2. Dans la palette de commandes, cliquez sur Create New Cluster (Créer un cluster).

  3. Lorsque vous êtes invité à ouvrir le site web externe (votre espace de travail Azure Databricks), cliquez sur Open (Ouvrir).

  4. Si vous y êtes invité, connectez-vous à votre espace de travail Azure Databricks.

  5. Suivez les instructions pour créer un cluster.

    Notes

    Databricks vous recommande de créer un cluster Personal Compute. Cela vous permettra d’exécuter des charges de travail immédiatement et donc de réduire les frais de gestion du calcul.

  6. Une fois le cluster créé et en cours d’exécution, revenez à Visual Studio Code.

  7. Dans la vue Configuration, en regard de Cluster, cliquez sur l’icône d’engrenage (Configurer le cluster).

    Icône Configurer le cluster 3

    Dans la palette de commandes, cliquez sur le cluster que vous souhaitez utiliser.

Synchroniser votre dossier d’espace de travail avec Databricks

Vous pouvez synchroniser le dossier d’espace de travail Databricks distant associé à votre projet Databricks en cliquant sur l’icône de synchronisation (Démarrer la synchronisation) associée au dossier d’espace de travail dans la vue Configuration du panneau d’extension Databricks.

Remarque

L’extension Databricks pour Visual Studio Code fonctionne uniquement avec les répertoires d’espace de travail qu’elle crée. Vous ne pouvez pas utiliser un répertoire d’espace de travail existant dans votre projet, sauf s’il a été créé par l’extension.

Pour accéder à l’affichage de l’espace de travail dans Databricks, cliquez sur l’icône de lien externe (Ouvrir un lien externe) associée au dossier espace de travail.

L’extension détermine le dossier de l’espace de travail Azure Databricks à utiliser en fonction du paramètre file_path dans le mappage workspace de la configuration packs de ressources Databricks associée du projet. Consultez Espace de travail.

Remarque

L’extension Databricks pour Visual Studio Code effectue uniquement la synchronisation automatique unidirectionnelle des modifications de fichiers de votre projet Visual Studio Code local vers le dossier d’espace de travail associé dans votre espace de travail Azure Databricks distant. Les fichiers de ce répertoire d’espace de travail distant sont destinés à être temporaires. N’initiez pas de modifications à ces fichiers à partir de votre espace de travail distant, car ces modifications ne seront pas synchronisées avec votre projet local.

Pour plus d’informations sur l’utilisation de la fonctionnalité de synchronisation d’annuaires d’espace de travail pour les versions antérieures de l’extension Databricks pour Visual Studio Code, consultez Sélectionner un répertoire d’espace de travail pour l’extension Databricks pour Visual Studio Code.

Configurer votre environnement Python et Databricks Connect

La section Environnement Python de la vue Configuration permet de configurer facilement votre environnement de développement virtuel Python et l’installation de Databricks Connect pour l’exécution et le débogage de cellules de code et de notebook. Les environnements virtuels Python vous permettent de vous assurer que votre projet utilise des versions compatibles des packages Python et Python (dans ce cas, le package Databricks Connect).

Pour configurer l’environnement virtuel Python pour votre projet, dans la vue Configuration du panneau d’extension :

  1. Cliquez sur l’élément Activer l’environnement virtuel rouge sous Environnement Python.
  2. Dans la palette de commandes, sélectionnez Venv ou Conda.
  3. Sélectionnez les dépendances que vous souhaitez installer, le cas échéant.

Pour modifier les environnements, cliquez sur l’icône d’engrenage (Modifier l’environnement virtuel) associée à l’environnement actif.

Pour plus d’informations sur l’installation de Databricks Connect, qui permet d’exécuter et de déboguer du code et des notebooks dans Visual Studio Code, consultez Déboguer le code à l’aide de Databricks Connect pour l’extension Databricks pour Visual Studio Code.