O que é o Azure Data Factory?
Vamos começar com uma visão geral do Azure Data Factory para ajudar você a determinar se é uma boa opção para organizar seus dados para criar insights de negócios.
O Azure Data Factory é um serviço de integração de dados e de extração, transformação e carregamento (ETL) baseado em nuvem que ajuda você a criar fluxos de trabalho orientados a dados para:
- Orquestrar uma movimentação de dados.
- Transformar dados em escala.
Observação
Os fluxos de trabalho orientados a dados também são conhecidos como pipelines.
Usando o Azure Data Factory, você pode reorganizar dados brutos em armazenamentos de dados e data lakes significativos, fornecendo uma base para tomar melhores decisões de negócios.
O que é a análise de dados?
A análise de dados é o processo de coletar dados brutos e examiná-los a fim de obter conclusões. Este processo pode ser difícil se os dados estão em várias localizações, como bancos de dados hospedados e armazenamentos locais.
Dica
Os dados brutos são dados que foram coletados de uma fonte e não foram processados. Às vezes, eles são chamados de dados não organizados.
O Azure fornece várias tecnologias que você pode implementar para ajudar na análise de dados da sua organização, incluindo:
- Azure Synapse Analytics
- Armazenamento do Blobs do Azure
- Armazenamento do Azure Data Lake
- Análise Azure Data Lake
- Azure Analysis Services
- Azure HDInsight
- Azure Databricks
- Azure Machine Learning
Você pode usar alguns ou todos esses serviços, conforme necessário, para analisar os dados da sua organização. No entanto, nenhum desses serviços aborda a integração de dados. A integração de dados permite coletar dados de várias fontes e carregar esses dados combinados em uma localização adequada para a análise de dados. Se necessário, você pode transformar os dados durante esse processo. Embora seja possível executar essas tarefas manualmente, considere usar o Azure Data Factory.
Definição do Azure Data Factory
O Azure Data Factory é um serviço de integração de dados baseado em nuvem projetado para atender às necessidades de duas comunidades específicas, conforme descrito na seguinte tabela:
Comunidade | Descrição das necessidades da comunidade |
---|---|
Comunidade de Big Data | Essa comunidade depende de tecnologias para gerenciar grandes quantidades de dados diversos. Para ela, o Azure Data Factory fornece um meio para criar e executar pipelines na nuvem. Esses pipelines podem acessar serviços de dados locais e na nuvem. Esses pipelines normalmente funcionam com tecnologias como o Azure Synapse Analytics, Blobs do Azure e Azure Data Lake. Além disso, o Azure HDInsight, o Azure Databricks e o Azure Machine Learning. |
Comunidade de data warehousing relacional | Normalmente, essa comunidade se baseia em tecnologias como o Microsoft SQL Server. O SSIS (SQL Server Integration Services) geralmente é usado para criar pacotes SSIS. O Azure Data Factory fornece a essa comunidade a capacidade de executar pacotes SSIS no Azure, dando-lhes acesso a serviços de dados locais e de nuvem. |
Observação
Um pacote é semelhante a um pipeline do Azure Data Factory. Cada pacote define um processo para extrair, carregar, transformar ou trabalhar com os dados de outra forma.
O ponto principal é que o Azure Data Factory é um serviço de nuvem para integração de dados. Ele fornece um conjunto de ferramentas e uma interface de gerenciamento comum para toda a integração de dados, dando suporte a todas as suas fontes de dados, independente de onde elas estejam localizadas:
- Azure
- Local
- Uma plataforma de nuvem pública de terceiros
Como o Azure Data Factory pode ajudar com a análise de dados
Usando o Azure Data Factory, você pode:
Criar processos complexos de ETL. Esses processos podem transformar dados visualmente usando fluxos de dados ou serviços de computação, como:
- Azure HDInsight para Hadoop
- Azure Databricks
- Banco de Dados SQL do Azure
Publique esses dados transformados em armazenamentos de dados para que eles sejam consumidos por aplicativos de business intelligence.
No gráfico a seguir, as fontes de dados externas estão conectadas ao Azure Data Factory. Um blob de armazenamento é usado para ingerir os dados, enquanto o Azure Synapse Analytics é usado como armazenamento. Esses elementos fornecem a orquestração. Os componentes de análise e de visualização, o Azure Analysis Service e o Power BI também estão conectados ao Azure Data Factory.
Dica
O Azure Data Factory fornece mais de 90 conectores internos que não precisam de manutenção.