O que é o Azure Data Factory?

Concluído

Vamos começar com uma visão geral do Azure Data Factory para ajudar você a determinar se é uma boa opção para organizar seus dados para criar insights de negócios.

O Azure Data Factory é um serviço de integração de dados e de extração, transformação e carregamento (ETL) baseado em nuvem que ajuda você a criar fluxos de trabalho orientados a dados para:

  • Orquestrar uma movimentação de dados.
  • Transformar dados em escala.

Observação

Os fluxos de trabalho orientados a dados também são conhecidos como pipelines.

Usando o Azure Data Factory, você pode reorganizar dados brutos em armazenamentos de dados e data lakes significativos, fornecendo uma base para tomar melhores decisões de negócios.

O que é a análise de dados?

A análise de dados é o processo de coletar dados brutos e examiná-los a fim de obter conclusões. Este processo pode ser difícil se os dados estão em várias localizações, como bancos de dados hospedados e armazenamentos locais.

Dica

Os dados brutos são dados que foram coletados de uma fonte e não foram processados. Às vezes, eles são chamados de dados não organizados.

O Azure fornece várias tecnologias que você pode implementar para ajudar na análise de dados da sua organização, incluindo:

  • Azure Synapse Analytics
  • Armazenamento do Blobs do Azure
  • Armazenamento do Azure Data Lake
  • Análise Azure Data Lake
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure Machine Learning

Você pode usar alguns ou todos esses serviços, conforme necessário, para analisar os dados da sua organização. No entanto, nenhum desses serviços aborda a integração de dados. A integração de dados permite coletar dados de várias fontes e carregar esses dados combinados em uma localização adequada para a análise de dados. Se necessário, você pode transformar os dados durante esse processo. Embora seja possível executar essas tarefas manualmente, considere usar o Azure Data Factory.

Definição do Azure Data Factory

O Azure Data Factory é um serviço de integração de dados baseado em nuvem projetado para atender às necessidades de duas comunidades específicas, conforme descrito na seguinte tabela:

Comunidade Descrição das necessidades da comunidade
Comunidade de Big Data Essa comunidade depende de tecnologias para gerenciar grandes quantidades de dados diversos. Para ela, o Azure Data Factory fornece um meio para criar e executar pipelines na nuvem. Esses pipelines podem acessar serviços de dados locais e na nuvem. Esses pipelines normalmente funcionam com tecnologias como o Azure Synapse Analytics, Blobs do Azure e Azure Data Lake. Além disso, o Azure HDInsight, o Azure Databricks e o Azure Machine Learning.
Comunidade de data warehousing relacional Normalmente, essa comunidade se baseia em tecnologias como o Microsoft SQL Server. O SSIS (SQL Server Integration Services) geralmente é usado para criar pacotes SSIS. O Azure Data Factory fornece a essa comunidade a capacidade de executar pacotes SSIS no Azure, dando-lhes acesso a serviços de dados locais e de nuvem.

Observação

Um pacote é semelhante a um pipeline do Azure Data Factory. Cada pacote define um processo para extrair, carregar, transformar ou trabalhar com os dados de outra forma.

O ponto principal é que o Azure Data Factory é um serviço de nuvem para integração de dados. Ele fornece um conjunto de ferramentas e uma interface de gerenciamento comum para toda a integração de dados, dando suporte a todas as suas fontes de dados, independente de onde elas estejam localizadas:

  • Azure
  • Local
  • Uma plataforma de nuvem pública de terceiros

Como o Azure Data Factory pode ajudar com a análise de dados

Usando o Azure Data Factory, você pode:

  • Criar processos complexos de ETL. Esses processos podem transformar dados visualmente usando fluxos de dados ou serviços de computação, como:

    • Azure HDInsight para Hadoop
    • Azure Databricks
    • Banco de Dados SQL do Azure
  • Publique esses dados transformados em armazenamentos de dados para que eles sejam consumidos por aplicativos de business intelligence.

No gráfico a seguir, as fontes de dados externas estão conectadas ao Azure Data Factory. Um blob de armazenamento é usado para ingerir os dados, enquanto o Azure Synapse Analytics é usado como armazenamento. Esses elementos fornecem a orquestração. Os componentes de análise e de visualização, o Azure Analysis Service e o Power BI também estão conectados ao Azure Data Factory.

Um gráfico que ilustra uma possível arquitetura para usar o Azure Data Factory.

Dica

O Azure Data Factory fornece mais de 90 conectores internos que não precisam de manutenção.