Streaming no Azure Databricks
Você pode usar o Azure Databricks para ingestão de dados quase em tempo real, processamento, aprendizado de máquina e IA para dados de streaming.
O Azure Databricks oferece várias otimizações para streaming e processamento incremental, incluindo o seguinte.
- O Delta Live Tables fornece sintaxe declarativa para processamento incremental. ConsulteO que é o Delta Live Tables?.
- O Carregador Automático simplifica a ingestão incremental do armazenamento de objetos na nuvem. Confira O que é o Carregador Automático?.
- O Catálogo do Unity adiciona governança de dados a cargas de trabalho de streaming. Consulte Usando o Catálogo do Unity com fluxo estruturado.
O Delta Lake fornece a camada de armazenamento para essas integrações. Consulte Streaming de tabela Delta lê e grava.
Para serviço de modelo em tempo real, consulte Serviço de modelo com o Azure Databricks.
-
Aprenda as noções básicos do processamento incremental e em tempo quase real com o Fluxo Estruturado no Azure Databricks.
-
Conheça os principais conceitos para configurar cargas de trabalho incrementais e quase em tempo real com o Fluxo Estruturado.
-
Gerenciar as informações de estado intermediário de consultas de Streaming Estruturado com estado pode ajudar a evitar problemas inesperados de latência e produção.
-
Este artigo contém recomendações para configurar facilmente cargas de trabalho de processamento incremental de produção com o Fluxo Estruturado no Azure Databricks para atender aos requisitos de latência e custo para aplicativos em tempo real ou em lotes.
-
Saiba como monitorar aplicativos de Streaming Estruturado no Azure Databricks.
Integração do Catálogo do Unity
Saiba como aproveitar o Catálogo do Unity em conjunto com o fluxo estruturado no Azure Databricks.
-
Saiba como usar tabelas Delta Lake como fontes de streaming e coletores.
-
Veja exemplos de como usar o Structured Streaming do Spark com Cassandra, Azure Synapse Analytics, notebooks Python e notebooks Scala no Azure Databricks.
O Azure Databricks tem recursos específicos para trabalhar com campos de dados semiestruturados contidos em buffers de protocolo e conteúdos de dados Avro e JSON. Para obter mais informações, consulte:
- Ler e gravar dados de streaming do Avro
- Ler e gravar buffers de protocolo
- Consultar cadeias de caracteres JSON
Recursos adicionais
O Apache Spark fornece um Guia de Programação de Streaming Estruturado que tem mais informações sobre Streaming Estruturado.
Para obter informações de referência sobre o Streaming Estruturado, o Databricks recomenda as seguintes referências à API do Apache Spark: