Escolher uma tecnologia de processamento em lotes no Azure

Artigo
08/05/2024

As soluções de Big Data normalmente consistem em tarefas discretas de processamento em lote que contribuem para a solução geral de processamento de dados. Você pode usar o processamento em lote para cargas de trabalho que não exigem acesso imediato aos insights. O processamento em lote pode complementar os requisitos de processamento em tempo real. Você também pode usar o processamento em lote para equilibrar a complexidade e reduzir o custo de sua implementação geral.

O requisito fundamental dos mecanismos de processamento em lote é expandir os cálculos para lidar com um grande volume de dados. Ao contrário do processamento em tempo real, o processamento em lote tem latências, ou seja, o tempo entre a ingestão de dados e a computação de um resultado, é de minutos ou horas.

Escolha uma tecnologia para processamento em lote

A Microsoft oferece vários serviços que você pode usar para realizar o processamento em lote.

Microsoft Fabric

O Microsoft Fabric é uma plataforma de dados e análise completa para organizações. É uma oferta de software como serviço que simplifica a forma como você provisiona, gerencia e administra uma solução de análise de ponta a ponta. O Fabric lida com a movimentação de dados, o processamento, a ingestão, a transformação e a geração de relatórios de dados. Os recursos do Fabric que você usa para processamento em lote incluem engenharia de dados, data warehouses, lakehouses e processamento do Apache Spark. O Azure Data Factory no Fabric também é compatível com lakehouses. Para simplificar e acelerar o desenvolvimento, você pode ativar o Copilot orientado por IA.

Linguagens: R, Python, Java, Scala e SQL
Segurança: rede virtual gerenciada e controle de acesso RBAC (Controle de acesso baseado em função) do OneLake
Armazenamento primário: OneLake, que tem atalhos e opções de espelhamento
Spark: um pool inicial pré-hidratado e um pool Spark personalizado com tamanhos de nó predefinidos

Azure Synapse Analytics

O Azure Synapse Analytics é um serviço de análise empresarial que reúne as tecnologias SQL e Spark em uma única estrutura de espaço de trabalho. O Azure Synapse Analytics simplifica a segurança, a governança e o gerenciamento. Cada espaço de trabalho tem pipelines de dados integrados que você pode usar para criar fluxos de trabalho de ponta a ponta. Você também pode provisionar um pool de SQL dedicado para análise em grande escala, um ponto de extremidade de SQL sem servidor, que pode ser usado para consultar diretamente o lake, e um tempo de execução do Spark para processamento de dados distribuídos.

Linguagens: Python, Java, Scala e SQL
Segurança: rede virtual gerenciada, RBAC e controle de acesso, e listas de controle de acesso ao armazenamento no Azure Data Lake Storage
Armazenamento primário: Data Lake Storage e também se integra a outras fontes
Spark: configuração personalizada do Spark com tamanhos de nós predefinidos

Azure Databricks

O Azure Databricks é uma plataforma de análise baseada no Spark. Ele apresenta recursos avançados e premium do Spark, desenvolvidos com base no Spark de código aberto. O Azure Databricks é um serviço da Microsoft que se integra ao restante dos serviços do Azure. Ele apresenta configurações adicionais para implantações de cluster do Spark. E o Catálogo Unity ajuda a simplificar a governança dos objetos do Azure Databricks Spark.

Linguagens: R, Python, Java, Scala e Spark SQL.
Segurança: autenticação de usuário com o Microsoft Entra ID.
Armazenamento primário: integração incorporada com o Armazenamento de Blobs do Azure, Data Lake Storage, Azure Synapse Analytics e outros serviços. Para obter mais informações, consulte Fontes de dados.

Outros benefícios incluem:

Blocos de notas baseados na Web para colaboração e exploração de dados.
Horários de início rápido do cluster, encerramento e dimensionamento automáticos.
Suporte para clusters habilitados para GPU..

Principais critérios de seleção

Para escolher sua tecnologia para processamento em lote, considere as seguintes perguntas:

Você quer um serviço gerenciado ou quer gerenciar seus próprios servidores?
Você deseja criar a lógica do processamento em lotes de forma declarativa ou imperativa?
Você executa o processamento em lote em sequências? Em caso afirmativo, considere alternativas que ofereçam a capacidade de encerrar automaticamente um cluster ou que tenham modelos de preços para cada trabalho em lote.
Você precisa consultar armazenamentos de dados relacionais junto com o processamento em lotes, por exemplo, para pesquisar dados de referência? Em caso afirmativo, considere alternativas que ofereçam a capacidade de consultar armazenamentos relacionais externos.

Matriz de funcionalidades

As tabelas a seguir resumem as principais diferenças de recursos entre os serviços.

Funcionalidades gerais

Funcionalidade	Fabric	Azure Synapse Analytics	Azure Databricks
Software como serviço	Sim¹	No	No
Serviço gerenciado	Não	Sim	Sim
Armazenamento de dados relacionais	Sim	Sim	Sim
Modelo de preços	Unidades de capacidade	Hora de cluster ou pool de SQL	Unidade do Azure Databricks ² e hora de cluster

[1] Capacidade do Fabric atribuído.

[2] Uma unidade do Azure Databricks é a capacidade de processamento por hora.

Outras funcionalidades

Funcionalidade	Fabric	Azure Synapse Analytics	Azure Databricks
Dimensionamento automático	Não	No	Sim
Granularidade de expansão	Por SKU do Fabric	Por cluster ou pool de SQL	Por cluster
Cache em memória de dados	Não	Sim	Yes
Consulta por meio de relational stores externos	Sim	Não	Sim
Autenticação	Microsoft Entra ID	SQL ou Microsoft Entra ID	Microsoft Entra ID
Auditoria	Sim	Sim	Yes
Segurança em nível de linha	Sim	Sim ¹	Sim
Dá suporte a firewalls	Sim	Sim	Sim
Mascaramento de dados dinâmicos	Sim	Sim	Sim

[1] Somente predicados de filtro. Para saber mais, consulte Segurança em nível de linha.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Zoiner Tejada | CEO e arquiteto
Pratima Valavala | Arquiteta de Soluções Principal

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Compartilhar via

Escolher uma tecnologia de processamento em lotes no Azure

Escolha uma tecnologia para processamento em lote

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Principais critérios de seleção

Matriz de funcionalidades

Funcionalidades gerais

Outras funcionalidades

Colaboradores

Próximas etapas

Comentários

Recursos adicionais

Compartilhar via

Escolher uma tecnologia de processamento em lotes no Azure

Escolha uma tecnologia para processamento em lote

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Principais critérios de seleção

Matriz de funcionalidades

Funcionalidades gerais

Outras funcionalidades

Colaboradores

Próximas etapas

Recursos relacionados

Comentários

Recursos adicionais