Conceitos de Fluxo Estruturado

Este artigo fornece uma introdução ao Fluxo Estruturado no Azure Databricks.

O que é o Streaming Estruturado?

O Streaming Estruturado do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento único usando APIs conhecidas do Spark. Ele permite expressar a computação nos dados de streaming da mesma maneira que a computação em lote é expressada em dados estáticos. O mecanismo de Streaming Estruturado executa a computação incrementalmente e atualiza continuamente o resultado à medida que os dados de fluxo são recebidos.

Ler em um fluxo de dados

Você pode usar o Fluxo Estruturado para ingerir incrementalmente os dados de fontes de dados com suporte. Fontes de dados comuns incluem o seguinte:

Cada fonte de dados fornece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar as opções para fazer o seguinte:

  • Especificam a fonte ou o formato de dados (por exemplo, tipo de arquivo, delimitadores e esquema).
  • Configuram o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
  • Especifique onde começar em um fluxo (por exemplo, offsets do Kafka ou leitura de todos os arquivos existentes).
  • Controlam a quantidade de dados processados em cada lote (por exemplo, o máximo de offsets, arquivos ou bytes por lote). Consulte Configurar o tamanho de lote do Fluxo Estruturado no Azure Databricks.

Gravar em um coletor de dados

Um coletor de dados é o destino de uma operação de fluxo de gravação. Os coletores comuns usados nos fluxos de cargas de trabalho do Azure Databricks incluem o seguinte:

  • Delta Lake
  • Barramentos de mensagens e filas de espera
  • Bancos de dados de chave-valor

Assim como ocorre com as fontes de dados, a maioria dos coletores de dados fornece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do gravador, você especifica as seguintes opções: