Tutorial: Configurar o dbt para Data Warehouse do Fabric

Aplica-se a:✅ Warehouse no Microsoft Fabric

Este tutorial o guia através da configuração do dbt e na implantação de seu primeiro projeto em um Warehouse do Fabric.

Introdução

A estrutura de software livre DBT (Ferramenta de Build de Dados) simplifica a transformação de dados e a engenharia de análise. Ele se concentra nas transformações baseadas em SQL dentro da camada analítica, tratando o SQL como código. O dbt dá suporte a controle de versão, modularização, teste e documentação.

O adaptador do dbt para Microsoft Fabric pode ser usado para criar projetos do dbt, que podem então ser implantados em um Synapse Data Warehouse do Fabric.

Você também pode alterar a plataforma de destino para o projeto dbt simplesmente alterando o adaptador, por exemplo; um projeto criado para o pool de SQL dedicado do Azure Synapse pode ser atualizado em alguns segundos para um Synapse Data Warehouse do Fabric.

Pré-requisitos para o adaptador do dbt do Microsoft Fabric

Siga essa lista para instalar e configurar os pré-requisitos do dbt:

  1. Python versão 3.7 (ou superior).

  2. O Microsoft ODBC Driver for SQL Server.

  3. A versão mais recente do adaptador do dbt-fabric do repositório PyPI (Python Package Index) usando pip install dbt-fabric.

    pip install dbt-fabric
    

    Observação

    Ao alterar pip install dbt-fabric para pip install dbt-synapse e usar as instruções a seguir, você poderá instalar o adaptador do dbt para o pool de SQL dedicado do Synapse.

  4. Certifique-se de verificar se o dbt-fabric e suas dependências estão instaladas usando o comando pip list:

    pip list
    

    Uma longa lista de pacotes e versões atuais deve ser retornada desse comando.

  5. Caso você ainda não tenha nenhum, crie um Warehouse. Você pode usar a capacidade de avaliação para esse exercício: inscreva-se na avaliação gratuita do Microsoft Fabric, crie um workspace e, em seguida, crie um warehouse.

Introdução ao adaptador do dbt-fabric

Esse tutorial usa o Visual Studio Code, mas você pode usar a ferramenta de sua preferência.

  1. Clone o projeto jaffle_shop demo dbt em seu computador.

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. Abra a pasta do projeto jaffle_shop no Visual Studio Code.

    Captura de tela do Visual Studio Code, mostrando o projeto aberto.

  3. Você pode ignorar a inscrição se já tiver criado um Warehouse.

  4. Crie um arquivo do profiles.yml . Adicione a configuração a seguir ao profiles.yml. Esse arquivo configura a conexão com seu armazém no Microsoft Fabric usando o adaptador do dbt-fabric.

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    Observação

    Altere o type de fabric para synapse para alternar o adaptador do banco de dados para o Azure Synapse Analytics, se desejar. A plataforma de dados de qualquer projeto dbt existente pode ser atualizada alterando o adaptador do banco de dados. Para obter mais informações, confira a lista do dbt de plataformas de dados com suporte.

  5. Autentique-se no Azure no terminal do Visual Studio Code.

  6. Agora você está pronto para testar a conectividade. Execute dbt debug no terminal do Visual Studio Code para testar a conectividade com seu warehouse.

    dbt debug
    

    Captura de tela do Visual Studio Code, mostrando o comando dbt debug.

    Todas as verificações são aprovadas, o que significa que você pode conectar seu warehouse usando o adaptador do dbt-fabric do projeto jaffle_shop dbt.

  7. Agora é hora de testar se o adaptador está funcionando ou não. Primeiro, execute dbt seed para inserir dados de amostra no warehouse.

    Captura de tela do Visual Studio Code, mostrando um comando dbt seed.

  8. Execute dbt run para validar os dados em alguns testes.

    dbt run
    

    Captura de tela do Visual Studio Code, mostrando um comando dbt run.

  9. Execute dbt test para executar os modelos definidos no projeto dbt de demonstração.

    dbt test
    

    Captura de tela do Visual Studio Code, mostrando um comando dbt test.

Agora você implantou um projeto dbt no Synapse Data Warehouse no Fabric.

Mover-se entre diferentes warehouses

É simples mover o projeto dbt entre diferentes warehouses. Um projeto dbt em qualquer warehouse com suporte pode ser migrado rapidamente com esse processo de três etapas:

  1. Instale o novo adaptador. Para obter mais informações e instruções completas de instalação, confira adaptadores do dbt.

  2. Atualize a propriedade type no arquivo profiles.yml.

  3. Compile o projeto.

dbt no Data Factory do Fabric

Quando integrada ao Apache Airflow, um popular sistema de gerenciamento de fluxo de trabalho, a DBT se torna uma ferramenta poderosa para orquestrar transformações de dados. Os recursos de agendamento e gerenciamento de tarefas do Airflow permitem que as equipes de dados automatizem as execuções da DBT. Ela garante atualizações regulares de dados e mantém um fluxo consistente de dados de alta qualidade para fins de análise e geração de relatórios. Essa abordagem combinada, usando a experiência em transformação da DBT com o gerenciamento de fluxo de trabalho do Airflow, fornece pipelines de dados eficientes e robustos, levando a decisões mais rápidas e perspicazes baseadas em dados.

O Apache Airflow é uma plataforma de software livre usada para criar, agendar e monitorar fluxos de trabalho de dados complexos de forma programática. Ele permite que você defina um conjunto de tarefas, chamadas de operadores, que podem ser combinadas em DAGs (grafos direcionados acíclico) para representar pipelines de dados.

Para obter mais informações sobre como operacionalizar o dbt com seu warehouse, consulte Transformar dados usando dbt com o Data Factory no Microsoft Fabric.

Considerações

Coisas importantes a considerar ao usar o adaptador do dbt-fabric:

  • Revise as limitações atuais no armazenamento de dados do Microsoft Fabric.

  • O Fabric dá suporte à autenticação do Microsoft Entra ID (antigo Azure Active Directory) para entidades de segurança de usuário, identidades de usuário e entidades de serviço. O modo de autenticação recomendado para trabalhar interativamente no warehouse é a CLI (interfaces de linha de comando) e usar entidades de serviço para automação.

  • Revise os comandos T-SQL (Transact-SQL) sem suporte no Synapse Data Warehouse no Microsoft Fabric.

  • Alguns comandos T-SQL têm suporte pelo adaptador dbt-fabric usando comandos Create Table as Select (CTAS), DROP e CREATE, como ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATE e sp_rename.

  • Revise os Tipos de dados sem suporte para saber mais sobre os tipos de dados com suporte e sem suporte.

  • Você pode registrar problemas no adaptador dbt-fabric no GitHub visitando Problemas · microsoft/dbt-fabric · GitHub.

Próxima etapa