Como conectar Azure Data Factory e Microsoft Purview

Este documento explica as etapas necessárias para conectar uma conta Azure Data Factory com uma conta do Microsoft Purview para acompanhar a linhagem de dados e ingerir fontes de dados. O documento também entra nos detalhes do escopo de cobertura da atividade e dos padrões de linhagem com suporte.

Quando você conecta um Azure Data Factory ao Microsoft Purview, sempre que uma atividade de Azure Data Factory com suporte for executada, metadados sobre os dados de origem, os dados de saída e a atividade da atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.

Se uma fonte de dados já tiver sido digitalizada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem de Azure Data Factory à fonte existente. Se a origem ou saída não existir no mapa de dados e tiver suporte por Azure Data Factory linhagem, o Microsoft Purview adicionará automaticamente seus metadados de Azure Data Factory no mapa de dados sob a coleção raiz.

Essa pode ser uma excelente maneira de monitorar seu patrimônio de dados à medida que os usuários movem e transformam informações usando Azure Data Factory.

Exibir conexões existentes do Data Factory

Várias Fábricas de Dados do Azure podem se conectar a um único Microsoft Purview para enviar informações de linhagem por push. O limite atual permite que você conecte até 10 contas do Data Factory por vez do centro de gerenciamento do Microsoft Purview. Para mostrar a lista de contas do Data Factory conectadas à sua conta do Microsoft Purview, faça o seguinte:

  1. Selecione Gerenciamento no painel de navegação esquerdo.

  2. Em Conexões de linhagem, selecione Data Factory.

  3. A lista de conexões do Data Factory é exibida.

    Captura de tela mostrando uma lista de conexões do data factory.

  4. Observe os vários valores para o Status da conexão:

    • Conectado: o data factory está conectado à conta do Microsoft Purview.
    • Desconectado: o data factory tem acesso ao catálogo, mas está conectado a outro catálogo. Como resultado, a linhagem de dados não será relatada ao catálogo automaticamente.
    • CannotAccess: o usuário atual não tem acesso ao data factory, portanto, a conexão status é desconhecida.

Observação

Para exibir as conexões do Data Factory, você precisa receber a função a seguir. Não há suporte para herança de função do grupo de gerenciamento. Função de administradores de coleção na coleção raiz.

Criar uma nova conexão do Data Factory

Observação

Para adicionar ou remover as conexões do Data Factory, você precisa receber a função a seguir. Não há suporte para herança de função do grupo de gerenciamento. Função de administradores de coleção na coleção raiz.

Além disso, exige que os usuários sejam "Proprietário" ou "Colaborador" do data factory.

Seu data factory precisa ter a identidade gerenciada atribuída pelo sistema habilitada.

Siga as etapas abaixo para conectar um data factory existente à sua conta do Microsoft Purview. Você também pode conectar o Data Factory à conta do Microsoft Purview do ADF.

  1. Selecione Gerenciamento no painel de navegação esquerdo.

  2. Em Conexões de linhagem, selecione Data Factory.

  3. Na página de conexão do Data Factory , selecione Novo.

  4. Selecione sua conta do Data Factory na lista e selecione OK. Você também pode filtrar pelo nome da assinatura para limitar sua lista.

    Algumas instâncias do Data Factory poderão ser desabilitadas se o data factory já estiver conectado à conta atual do Microsoft Purview ou o data factory não tiver uma identidade gerenciada.

    Uma mensagem de aviso será exibida se algum dos Data Factorys selecionados já estiver conectado a outra conta do Microsoft Purview. Quando você selecionar OK, a conexão do Data Factory com a outra conta do Microsoft Purview será desconectada. Nenhuma outra confirmação é necessária.

    Captura de tela mostrando o aviso para desconectar Azure Data Factory.

Observação

Oferecemos suporte para adicionar até 10 contas de Azure Data Factory ao mesmo tempo. Se você quiser adicionar mais de 10 contas de data factory, faça isso em vários lotes.

Como funciona a autenticação

A identidade gerenciada do data factory é usada para autenticar operações de push de linhagem do data factory para o Microsoft Purview. Quando você conecta seu data factory ao Microsoft Purview na interface do usuário, ele adiciona a atribuição de função automaticamente.

Conceda a função de Curador de Dados de identidade gerenciada do data factory na coleção raiz do Microsoft Purview. Saiba mais sobre o controle access no Microsoft Purview e adicionar funções e restringir o acesso por meio de coleções.

Remover conexões do Data Factory

Para remover uma conexão de data factory, faça o seguinte:

  1. Na página de conexão do Data Factory , selecione o botão Remover ao lado de uma ou mais conexões de data factory.

  2. Selecione Confirmar no pop-up para excluir as conexões selecionadas do data factory.

    Captura de tela mostrando como selecionar fábricas de dados para remover a conexão.

No portal de governança do Microsoft Purview, você pode monitorar os links do Data Factory.

Atividades de Azure Data Factory com suporte

O Microsoft Purview captura a linhagem de runtime das seguintes atividades de Azure Data Factory:

Importante

O Microsoft Purview descarta a linhagem se a origem ou o destino usar um sistema de armazenamento de dados sem suporte.

A integração entre o Data Factory e o Microsoft Purview dá suporte apenas a um subconjunto dos sistemas de dados compatíveis com o Data Factory, conforme descrito nas seções a seguir.

suporte atividade Copy

Armazenamento de dados Com suporte
Azure Storage Blob Sim
Azure Cognitive Search Sim
Azure Cosmos DB for NoSQL * Sim
Azure Cosmos DB para MongoDB * Sim
Azure Data Explorer * Sim
Azure Data Lake Storage Gen1 Sim
Azure Data Lake Storage Gen2 Sim
Banco de Dados do Azure para MariaDB * Sim
Banco de Dados do Azure para MySQL * Sim
Banco de Dados do Azure para PostgreSQL * Sim
Arquivos do Azure Sim
Banco de Dados SQL do Azure * Sim
Instância Gerenciada de SQL do Azure * Sim
Azure Synapse Analytics * Sim
Pool de SQL dedicado do Azure (anteriormente SQL DW) * Sim
Armazenamento de Tabelas do Azure Sim
Amazon S3 Sim
Colméia* Sim
Oracle* Sim
Tabela SAP (ao se conectar ao SAP ECC ou SAP S/4HANA) Sim
SQL Server * Sim
Teradata* Sim

* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.

Se você usar o Integration Runtime auto-hospedado, observe a versão mínima com suporte de linhagem para:

  • Qualquer caso de uso: versão 5.9.7885.3 ou posterior
  • Copiar dados do Oracle: versão 5.10 ou posterior
  • Copiar dados no Azure Synapse Analytics por meio do comando COPY ou PolyBase: versão 5.10 ou posterior

Limitações na linhagem de atividade de cópia

Atualmente, se você usar os seguintes recursos de atividade de cópia, a linhagem ainda não terá suporte:

  • Copie dados em Azure Data Lake Storage Gen1 usando o formato Binário.
  • Configuração de compactação para arquivos Binary, texto delimitado, Excel, JSON e XML.
  • Opções de partição de origem para Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server e tabela SAP.
  • Copie dados para o coletor baseado em arquivo com a configuração de linhas máximas por arquivo.
  • No momento, não há suporte para linhagem de nível de coluna pela atividade de cópia quando a origem/coletor é definida.

Além da linhagem, o esquema de ativo de dados (mostrado na guia Ativo –> Esquema) é relatado para os seguintes conectores:

  • Arquivos CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
  • Banco de Dados do Azure Data Explorer, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server, Teradata

suporte Fluxo de Dados

Armazenamento de dados Com suporte
Azure Storage Blob Sim
Azure Cosmos DB for NoSQL * Sim
Azure Data Lake Storage Gen1 Sim
Azure Data Lake Storage Gen2 Sim
Banco de Dados do Azure para MySQL * Sim
Banco de Dados do Azure para PostgreSQL * Sim
Banco de Dados SQL do Azure * Sim
Instância Gerenciada de SQL do Azure * Sim
Azure Synapse Analytics * Sim
Pool de SQL dedicado do Azure (anteriormente SQL DW) * Sim

* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.

Limitações na linhagem de fluxo de dados

  • A linhagem de fluxo de dados pode gerar um conjunto de recursos no nível da pasta sem visibilidade nos arquivos envolvidos.
  • No momento, não há suporte para linhagem de nível de coluna quando a origem/coletor é definida.
  • Para a linhagem da atividade de fluxo de dados, o Microsoft Purview só dá suporte a mostrar a origem e o coletor envolvidos. A linhagem detalhada para transformação de fluxo de dados ainda não tem suporte.

Executar suporte ao pacote SSIS

Consulte armazenamentos de dados com suporte.

Conta do Microsoft Purview protegida de acesso

Se sua conta do Microsoft Purview estiver protegida por firewall, saiba como permitir que o Data Factory acesse uma conta protegida do Microsoft Purview por meio de pontos de extremidade privados do Microsoft Purview.

Trazer linhagem do Data Factory para o Microsoft Purview

Para obter um passo a passo de ponta a ponta, siga o Tutorial: Enviar dados de linhagem do Push Data Factory para o Microsoft Purview.

Padrões de linhagem com suporte

Há vários padrões de linhagem compatíveis com o Microsoft Purview. Os dados de linhagem gerados baseiam-se no tipo de origem e coletor usados nas atividades do Data Factory. Embora o Data Factory dê suporte a mais de 80 coletores e fontes, o Microsoft Purview dá suporte apenas a um subconjunto, conforme listado em atividades de Azure Data Factory com suporte.

Para configurar o Data Factory para enviar informações de linhagem, consulte Introdução à linhagem.

Algumas outras maneiras de encontrar informações no modo de exibição de linhagem incluem o seguinte:

  • Na guia Linhagem , passe o mouse sobre formas para visualizar informações adicionais sobre o ativo na dica de ferramenta.
  • Selecione o nó ou a borda para ver o tipo de ativo que pertence ou para alternar ativos.
  • As colunas de um conjunto de dados são exibidas no lado esquerdo da guia Linhagem . Para obter mais informações sobre a linhagem no nível da coluna, consulte Linhagem de coluna do conjunto de dados.

Linhagem de dados para operações 1:1

O padrão mais comum para capturar a linhagem de dados é mover dados de um único conjunto de dados de entrada para um único conjunto de dados de saída, com um processo no meio.

Um exemplo desse padrão seria o seguinte:

  • 1 fonte/entrada: Cliente (Tabela SQL)
  • 1 coletor/saída: Customer1.csv (Blob do Azure)
  • 1 processo: CopyCustomerInfo1#Customer1.csv (Data Factory atividade Copy)

Captura de tela mostrando a linhagem de uma a uma operação de Cópia do Data Factory.

Movimentação de dados com linhagem 1:1 e suporte curinga

Outro cenário comum para capturar a linhagem é usar um curinga para copiar arquivos de um único conjunto de dados de entrada para um único conjunto de dados de saída. O curinga permite que a atividade de cópia corresponda a vários arquivos para copiar usando uma parte comum do nome do arquivo. O Microsoft Purview captura a linhagem no nível do arquivo para cada arquivo individual copiado pela atividade de cópia correspondente.

Um exemplo desse padrão seria o seguinte:

  • Fonte/entrada: CustomerCall*.csv (caminho do ADLS Gen2)
  • Coletor/saída: CustomerCall*.csv (arquivo de blob do Azure)
  • 1 processo: CopyGen2ToBlob#CustomerCall.csv (Data Factory atividade Copy)

Captura de tela mostrando a linhagem de uma a uma operação de Cópia com suporte curinga.

Movimentação de dados com linhagem n:1

Você pode usar Fluxo de Dados atividades para executar operações de dados como mesclagem, junção e assim por diante. Mais de um conjunto de dados de origem pode ser usado para produzir um conjunto de dados de destino. Neste exemplo, o Microsoft Purview captura a linhagem no nível do arquivo para arquivos de entrada individuais em uma tabela SQL que faz parte de uma atividade Fluxo de Dados.

Um exemplo desse padrão seria o seguinte:

  • 2 fontes/entradas: Customer.csv, Sales.parquet (Caminho do ADLS Gen2)
  • 1 coletor/saída: dados da empresa (SQL do Azure tabela)
  • 1 processo: DataFlowBlobsToSQL (atividade de Fluxo de Dados do Data Factory)

Captura de tela mostrando a linhagem de uma operação de Fluxo de Dados do A D F.

Linhagem para conjuntos de recursos

Um conjunto de recursos é um objeto lógico no catálogo que representa muitos arquivos de partição no armazenamento subjacente. Para obter mais informações, confira Entender conjuntos de recursos. Quando o Microsoft Purview captura a linhagem do Azure Data Factory, ele aplica as regras para normalizar os arquivos de partição individuais e criar um único objeto lógico.

No exemplo a seguir, um conjunto de recursos do Azure Data Lake Gen2 é produzido a partir de um Blob do Azure:

  • 1 fonte/entrada: Employee_management.csv (Blob do Azure)
  • 1 coletor/saída: Employee_management.csv (Azure Data Lake Gen 2)
  • 1 processo: CopyBlobToAdlsGen2_RS (data factory atividade Copy)

Captura de tela mostrando a linhagem de um conjunto de recursos.

Próximas etapas

Tutorial: Enviar dados de linhagem do Data Factory para o Microsoft Purview

Guia do usuário de linhagem de catálogo

Vincular ao Azure Data Share para linhagem