Streaming no Azure Databricks

Você pode usar o Azure Databricks para ingestão de dados quase em tempo real, processamento, aprendizado de máquina e IA para dados de streaming.

O Azure Databricks oferece várias otimizações para streaming e processamento incremental, incluindo o seguinte.

O Delta Lake fornece a camada de armazenamento para essas integrações. Consulte Streaming de tabela Delta lê e grava.

Para serviço de modelo em tempo real, consulte Serviço de modelo com o Azure Databricks.

  • Tutorial

    Aprenda as noções básicos do processamento incremental e em tempo quase real com o Fluxo Estruturado no Azure Databricks.

  • Conceitos

    Conheça os principais conceitos para configurar cargas de trabalho incrementais e quase em tempo real com o Fluxo Estruturado.

  • Streaming com estado

    Gerenciar as informações de estado intermediário de consultas de Streaming Estruturado com estado pode ajudar a evitar problemas inesperados de latência e produção.

  • Considerações sobre produção

    Este artigo contém recomendações para configurar facilmente cargas de trabalho de processamento incremental de produção com o Fluxo Estruturado no Azure Databricks para atender aos requisitos de latência e custo para aplicativos em tempo real ou em lotes.

  • Monitorar fluxos

    Saiba como monitorar aplicativos de Streaming Estruturado no Azure Databricks.

  • Integração do Catálogo do Unity

    Saiba como aproveitar o Catálogo do Unity em conjunto com o fluxo estruturado no Azure Databricks.

  • Streaming com o Delta

    Saiba como usar tabelas Delta Lake como fontes de streaming e coletores.

  • Exemplos

    Veja exemplos de como usar o Structured Streaming do Spark com Cassandra, Azure Synapse Analytics, notebooks Python e notebooks Scala no Azure Databricks.

O Azure Databricks tem recursos específicos para trabalhar com campos de dados semiestruturados contidos em buffers de protocolo e conteúdos de dados Avro e JSON. Para obter mais informações, consulte:

Recursos adicionais

O Apache Spark fornece um Guia de Programação de Streaming Estruturado que tem mais informações sobre Streaming Estruturado.

Para obter informações de referência sobre o Streaming Estruturado, o Databricks recomenda as seguintes referências à API do Apache Spark: