Se connecter à dbt Core

Cet article explique ce qu’est dbt, comment installer dbt Core et comment se connecter. La version hébergée de dbt, appelée dtb Cloud, est également disponible. Pour plus d’informations, consultez Se connecter à dbt Cloud.

Qu’est-ce que dbt ?

dbt (data build tool) est un environnement de développement pour la transformation des données en écrivant simplement des instructions sélectionnées. dbt transforme ces instructions SELECT en tables et vues. dbt compile votre code en SQL brut, puis exécute ce code sur la base de données spécifiée dans Azure Databricks. dbt prend en charge les modèles de codage collaboratif et les meilleures pratiques, telles que la gestion de version, la documentation et la modularité.

dbt n’extrait ni ne charge les données. dbt se concentre uniquement sur l’étape de transformation, en utilisant une architecture de type « transformation après chargement ». dbt part du principe que vous disposez déjà d’une copie de vos données dans votre base de données.

dbt Core vous permet d’écrire du code dbt dans l’IDE de votre choix sur votre ordinateur local de développement, puis d’exécuter dbt à partir de la ligne de commande. dbt Core comprend l’interface de ligne de commande (CLI) dbt. L’interface CLI dbt est libre d’utilisation et open source.

dbt Core (et dbt Cloud) peuvent utiliser des référentiels Git hébergés. Pour plus d’informations, consultez les sections Creating a dbt project et Using an existing project sur le site web de dbt.

Configuration requise

Avant d’installer dtb Core, vous devez installer les éléments suivants sur votre ordinateur de développement local :

  • Python 3.7 ou version ultérieure
  • Utilitaire permettant de créer des environnements virtuels Python (tels que pipenv)

Vous avez également besoin de l’un des éléments suivants pour vous authentifier :

  • (Recommandé) dbt Core activé comme application OAuth dans votre compte. Cette option est activée par défaut.

  • Un jeton d’accès personnel

    Remarque

    En guise de meilleure pratique de sécurité, quand vous vous authentifiez avec des outils, systèmes, scripts et applications automatisés, Databricks recommande d’utiliser des jetons OAuth.

    Si vous utilisez l’authentification par jeton d’accès personnel, Databricks recommande d’utiliser des jetons d’accès personnels appartenant aux principaux de service au lieu des utilisateurs de l’espace de travail. Pour créer des jetons d’accès pour des principaux de service, consultez la section Gérer les jetons pour un principal de service.

Étape 1 : Installer l’adaptateur dbt Databricks

Nous vous recommandons d’utiliser un environnement virtuel Python, car il isole les versions de package et dépendances de code, quelles que soient les versions de package et dépendances de code dans d’autres environnements. Cela permet de réduire les incompatibilités de versions de package et les collisions de dépendance de code inattendues.

Databricks recommande la version 1.8.0 ou supérieure du package dbt-databricks.

.. Important : si votre ordinateur de développement local utilise l’un des systèmes d’exploitation suivants, vous devez commencer par suivre des étapes supplémentaires : CentOS, MacOS, Ubuntu, Debian et Windows. Consultez la section « Does my operating system have prerequisites » de l’article Use pip to install dbt sur le site web de dbt Labs.

Étape 2 : Créer un projet dbt, puis spécifier et tester les paramètres de connexion

Créer un projet dbt, (un ensemble de répertoires et de fichiers connexes nécessaires à l'utilisation de dbt). Vous alles ensuite configurer vos profils de connexion, qui contiennent des paramètres de connexion à un calcul Azure Databricks, à un entrepôt SQL ou aux deux. Pour accroître la sécurité, les projets et profils dbt sont stockés dans des emplacements distincts par défaut.

  1. L’environnement virtuel étant toujours activé, exécutez la commande dbt init avec le nom de projet. Cette exemple de procédure crée un projet nommé my_dbt_demo.

    dbt init my_dbt_demo
    
  2. Lorsque vous êtes invité à choisir une base de données databricks ou spark, entrez le numéro correspondant à databricks.

  3. Lorsque vous êtes invité à entrer une host valeur, procédez comme suit :

    • Pour un calcul, entrez la valeur Nom d’hôte du serveur sous l’onglet Options avancées, JDBC/ODBC pour votre calcul Azure Databricks.
    • Pour un entrepôt SQL, entrez la valeur de Nom d’hôte du serveur sous l’onglet Détails de la connexion pour votre entrepôt SQL.
  4. Lorsque vous êtes invité à entrer une http_path valeur, procédez comme suit :

    • Pour un calcul, entrez la valeur Chemin d’accès HTTP sous l’onglet Options avancées, JDBC/ODBC pour votre calcul Azure Databricks.
    • Pour un entrepôt SQL, entrez la valeur de Chemin HTTP sous l’onglet Détails de la connexion pour votre entrepôt SQL.
  5. Pour choisir un type d’authentification, entrez le numéro qui correspond à use oauth (recommandé) ou use access token.

  6. Si vous avez choisi use access token pour votre type d’authentification, entrez la valeur de votre jeton d’accès personnel Azure Databricks.

    Notes

    En guise de bonne pratique de sécurité, quand vous vous authentifiez avec des outils, systèmes, scripts et applications automatisés, Databricks recommande d’utiliser des jetons d’accès personnels appartenant à des principaux de service et non des utilisateurs de l’espace de travail. Si vous souhaitez créer des jetons d’accès pour des principaux de service, consultez la section Gérer les jetons d’accès personnels pour un principal de service.

  7. Lorsque vous êtes invité à indiquer la valeur desired Unity Catalog option, entrez le nombre correspondant à use Unity Catalog ou not use Unity Catalog.

  8. Si vous avez choisi d’utiliser Unity Catalog, entrez la valeur souhaitée pour catalog lorsque vous y êtes invité.

  9. Entrez les valeurs souhaitées pour schema et threads lorsque vous y êtes invité.

  10. dbt écrit vos entrées dans un fichier profiles.yml. L’emplacement de ce fichier est indiqué dans la sortie de la commande dbt init. Vous pouvez également afficher cet emplacement ultérieurement en exécutant la commande dbt debug --config-dir. Vous pouvez ouvrir ce fichier maintenant pour examiner et vérifier son contenu.

    Si vous avez choisi use oauth pour votre type d'authentification, ajoutez votre profil d'authentification machine à machine (M2M) ou utilisateur à machine (U2M) à profiles.yml.

    Par exemple, consultez Configurer la connexion Azure Databricks à partir de dbt Core avec Microsoft Entra ID.

    Databricks ne recommande pas de spécifier directement des secrets dans profiles.yml. Au lieu de cela, définissez l’ID client et la clé secrète client en tant que variables d’environnement.

  11. Confirmez les détails de la connexion en exécutant la commande dbt debug sur le répertoire my_dbt_demo.

    Si vous avez choisi use oauth pour votre type d’authentification, vous êtes invité à vous connecter avec votre fournisseur d’identité.

    Important

    Avant de commencer, vérifiez que votre capacité de calcul ou votre entrepôt SQL est en cours d’exécution.

    Vous devez obtenir une sortie similaire à la suivante :

    cd my_dbt_demo
    dbt debug
    
    ...
    Configuration:
      profiles.yml file [OK found and valid]
      dbt_project.yml file [OK found and valid]
    
    Required dependencies:
      - git [OK found]
    
    Connection:
      ...
      Connection test: OK connection ok
    

Étapes suivantes

Ressources supplémentaires