Escolher uma tecnologia de orquestração de pipeline de dados no Azure
A maioria das soluções de Big Data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.
Quais são as opções disponíveis para orquestração do pipeline de dados?
No Azure, os seguintes serviços e ferramentas atenderão aos requisitos básicos de orquestração do pipeline, fluxo de controle e movimentação de dados:
Esses serviços e ferramentas podem ser usados de forma independente um do outro ou usados em conjunto para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar pacotes SSIS nativamente em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.
Principais Critérios de Seleção
Para restringir as opções, comece respondendo a estas perguntas:
Você precisa de funcionalidades de Big Data para mover e transformar seus dados? Geralmente, isso significa vários gigabytes a terabytes de dados. Em caso afirmativo, restrinja as opções àquelas que são mais adequadas para Big Data.
Você precisa de um serviço gerenciado que pode operar em escala? Em caso afirmativo, selecione um dos serviços baseados em nuvem que não são limitados pelo poder de processamento local.
Algumas das fontes de dados estão localizadas localmente? Nesse caso, procure opções que podem trabalhar com a nuvem e fontes de dados ou destinos locais.
Os dados de origem estão armazenados no armazenamento de Blobs em um sistema de arquivos HDFS? Nesse caso, escolha uma opção que dá suporte a consultas do Hive.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças em funcionalidades.
Funcionalidades gerais
Funcionalidade | Fábrica de dados do Azure | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Gerenciado | Sim | Não | Sim |
Baseado em nuvem | Sim | Não (local) | Sim |
Pré-requisito | Assinatura do Azure | SQL Server | Assinatura do Azure, cluster HDInsight |
Ferramentas de gerenciamento | Portal do Azure, PowerShell, CLI, SDK do .NET | SSMS, PowerShell | Shell do Bash, API REST do Oozie, interface do usuário da Web do Oozie |
Preços | Pagamento por uso | Licenciamento/pagamento de recursos | Nenhum custo adicional além da execução do cluster HDInsight |
Funcionalidades de pipeline
Funcionalidade | Fábrica de dados do Azure | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Copiar dados | Sim | Sim | Yes |
Transformações personalizadas | Sim | Yes | Sim (trabalhos do MapReduce, Pig e Hive) |
Pontuação do Azure Machine Learning | Sim | Sim (com script) | Não |
HDInsight sob demanda | Sim | Não | Não |
Lote do Azure | Sim | Não | Não |
Pig, Hive, MapReduce | Sim | Não | Sim |
Spark | Sim | Não | Não |
Executar o pacote SSIS | Sim | Sim | Não |
Fluxo de controle | Sim | Sim | Yes |
Acesso a dados locais | Sim | Sim | Não |
Funcionalidades de escalabilidade
Funcionalidade | Fábrica de dados do Azure | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Escalar verticalmente | Sim | Não | Não |
Escalar horizontalmente | Sim | Não | Sim (com a adição de nós de trabalho ao cluster) |
Otimizado para Big Data | Sim | Não | Sim |
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Autor principal:
- Zoiner Tejada | CEO e arquiteto
Próximas etapas
- Pipelines e atividades no Azure Data Factory e no Azure Synapse Analytics
- Provisionar o Azure-SSIS Integration Runtime no Azure Data Factory
- Oozie no HDInsight