O que é o Azure Data Factory?

Concluído

Vamos começar com uma visão geral do Azure Data Factory. Isso deve ajudá-lo a determinar se é uma boa opção para organizar seus dados para criar insights de negócios.

O Azure Data Factory é um ETL baseado na nuvem e um serviço de integração de dados que o ajuda a criar fluxos de trabalho orientados por dados para:

  • Orquestre a movimentação de dados.
  • Transforme dados em escala.

Nota

Os fluxos de trabalho orientados por dados também são conhecidos como pipelines.

Usando o Azure Data Factory, você pode reorganizar dados brutos em armazenamentos de dados significativos e data lakes. Isso permite que você tome melhores decisões de negócios.

O que é a análise de dados?

A análise de dados é o processo de coletar dados brutos e examiná-los para tirar conclusões a partir deles. Isso pode ser difícil se os dados estiverem em vários locais, como bancos de dados hospedados e locais locais.

Gorjeta

Dados brutos são dados que foram coletados de uma fonte e não foram processados. Às vezes é referido como dados não organizados.

O Azure fornece várias tecnologias que pode implementar para ajudar com a análise de dados da sua organização. Estes são, entre outros:

  • Azure Synapse Analytics
  • Armazenamento de Blobs do Azure
  • Azure Data Lake Storage
  • Azure Data Lake Analytics
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure Machine Learning

Você pode usar alguns ou todos esses serviços, conforme necessário, para analisar os dados da sua organização. No entanto, nenhum desses serviços aborda a integração de dados. A integração de dados permite coletar dados de várias fontes e, em seguida, carregar esses dados combinados em um local adequado para análise de dados. Se necessário, você pode transformar os dados durante esse processo. Embora você possa executar essas tarefas manualmente, você pode considerar o uso do Azure Data Factory.

Definição do Azure Data Factory

O Azure Data Factory é um serviço de integração de dados baseado na nuvem projetado para atender às necessidades de duas comunidades específicas, conforme descrito na tabela a seguir:

Comunidade Descrição das necessidades da comunidade
Comunidade de Big Data Essa comunidade depende de tecnologias para gerenciar grandes quantidades de dados diversos. Para eles, o Azure Data Factory fornece um meio de criar e executar pipelines na nuvem. Esses pipelines podem acessar serviços de dados locais e na nuvem. Esses pipelines normalmente funcionam com tecnologias como Azure Synapse Analytics, Azure Blobs, Azure Data Lake, Azure HDInsight, Azure Databricks e Azure Machine Learning.
Comunidade de armazenamento de dados relacionais Essa comunidade normalmente depende de tecnologias como o Microsoft SQL Server. O SQL Server Integration Services (SSIS) é frequentemente usado para criar pacotes SSIS. Para essa comunidade, o Azure Data Factory fornece a capacidade de executar pacotes SSIS no Azure, permitindo que eles acessem serviços de dados locais e na nuvem.

Nota

Um pacote é semelhante a um pipeline do Azure Data Factory. Cada pacote define um processo para extrair, carregar, transformar ou trabalhar com dados.

O ponto principal é que o Azure Data Factory é um único serviço de nuvem para integração de dados. Ele fornece um único conjunto de ferramentas e uma interface de gerenciamento comum para toda a sua integração de dados e suporta todas as suas fontes de dados, onde quer que elas estejam localizadas:

  • Azure
  • Local
  • Uma plataforma de nuvem pública de terceiros

Como o Azure Data Factory pode ajudar com a análise de dados

Usando o Azure Data Factory, você pode:

  • Crie processos complexos de ETL. Esses processos podem transformar dados visualmente usando fluxos de dados ou serviços de computação, como:

    • Azure HDInsight Hadoop
    • Azure Databricks
    • Base de Dados SQL do Azure
  • Publique esses dados transformados em armazenamentos de dados para que os aplicativos de business intelligence consumam.

No gráfico a seguir, as fontes de dados externas são conectadas ao Azure Data Factory. Um blob de armazenamento é usado para ingerir os dados, enquanto o Azure Synapse Analytics é usado como armazenamento. Estes elementos fornecem a orquestração. Os componentes de análise e visualização, o Azure Analysis Service e o Power BI também estão conectados ao Azure Data Factory.

Graphic depicting a possible architecture for using Azure Data Factory.

Gorjeta

O Azure Data Factory fornece mais de 90 conectores internos e isentos de manutenção.