Escolher uma tecnologia de orquestração de pipeline de dados no Azure

A maioria das soluções de Big Data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Quais são as opções disponíveis para orquestração do pipeline de dados?

No Azure, os seguintes serviços e ferramentas atenderão aos requisitos básicos de orquestração do pipeline, fluxo de controle e movimentação de dados:

Esses serviços e ferramentas podem ser usados de forma independente um do outro ou usados em conjunto para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar pacotes SSIS nativamente em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.

Principais Critérios de Seleção

Para restringir as opções, comece respondendo a estas perguntas:

  • Você precisa de funcionalidades de Big Data para mover e transformar seus dados? Geralmente, isso significa vários gigabytes a terabytes de dados. Em caso afirmativo, restrinja as opções àquelas que são mais adequadas para Big Data.

  • Você precisa de um serviço gerenciado que pode operar em escala? Em caso afirmativo, selecione um dos serviços baseados em nuvem que não são limitados pelo poder de processamento local.

  • Algumas das fontes de dados estão localizadas localmente? Nesse caso, procure opções que podem trabalhar com a nuvem e fontes de dados ou destinos locais.

  • Os dados de origem estão armazenados no armazenamento de Blobs em um sistema de arquivos HDFS? Nesse caso, escolha uma opção que dá suporte a consultas do Hive.

Matriz de funcionalidades

As tabelas a seguir resumem as principais diferenças em funcionalidades.

Funcionalidades gerais

Funcionalidade Fábrica de dados do Azure SQL Server Integration Services (SSIS) Oozie no HDInsight
Gerenciado Sim Não Sim
Baseado em nuvem Sim Não (local) Sim
Pré-requisito Assinatura do Azure SQL Server Assinatura do Azure, cluster HDInsight
Ferramentas de gerenciamento Portal do Azure, PowerShell, CLI, SDK do .NET SSMS, PowerShell Shell do Bash, API REST do Oozie, interface do usuário da Web do Oozie
Preços Pagamento por uso Licenciamento/pagamento de recursos Nenhum custo adicional além da execução do cluster HDInsight

Funcionalidades de pipeline

Funcionalidade Fábrica de dados do Azure SQL Server Integration Services (SSIS) Oozie no HDInsight
Copiar dados Sim Sim Yes
Transformações personalizadas Sim Yes Sim (trabalhos do MapReduce, Pig e Hive)
Pontuação do Azure Machine Learning Sim Sim (com script) Não
HDInsight sob demanda Sim Não Não
Lote do Azure Sim Não Não
Pig, Hive, MapReduce Sim Não Sim
Spark Sim Não Não
Executar o pacote SSIS Sim Sim Não
Fluxo de controle Sim Sim Yes
Acesso a dados locais Sim Sim Não

Funcionalidades de escalabilidade

Funcionalidade Fábrica de dados do Azure SQL Server Integration Services (SSIS) Oozie no HDInsight
Escalar verticalmente Sim Não Não
Escalar horizontalmente Sim Não Sim (com a adição de nós de trabalho ao cluster)
Otimizado para Big Data Sim Não Sim

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas