Conceitos de Fluxo Estruturado

Artigo
10/14/2024

Este artigo fornece uma introdução ao Fluxo Estruturado no Azure Databricks.

O que é o Streaming Estruturado?

O Streaming Estruturado do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento único usando APIs conhecidas do Spark. Ele permite expressar a computação nos dados de streaming da mesma maneira que a computação em lote é expressada em dados estáticos. O mecanismo de Streaming Estruturado executa a computação incrementalmente e atualiza continuamente o resultado à medida que os dados de fluxo são recebidos.

Ler em um fluxo de dados

Você pode usar o Fluxo Estruturado para ingerir incrementalmente os dados de fontes de dados com suporte. Fontes de dados comuns incluem o seguinte:

Arquivos de dados no armazenamento de objetos na nuvem. Confira O que é o Carregador Automático?.
Barramentos de mensagens e filas de espera. Consulte Configurar fontes de dados de streaming.
Delta Lake. Consulte Streaming de tabela Delta lê e grava.

Cada fonte de dados fornece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar as opções para fazer o seguinte:

Especificam a fonte ou o formato de dados (por exemplo, tipo de arquivo, delimitadores e esquema).
Configuram o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
Especifique onde começar em um fluxo (por exemplo, offsets do Kafka ou leitura de todos os arquivos existentes).
Controlam a quantidade de dados processados em cada lote (por exemplo, o máximo de offsets, arquivos ou bytes por lote). Consulte Configurar o tamanho de lote do Fluxo Estruturado no Azure Databricks.

Gravar em um coletor de dados

Um coletor de dados é o destino de uma operação de fluxo de gravação. Os coletores comuns usados nos fluxos de cargas de trabalho do Azure Databricks incluem o seguinte:

Delta Lake
Barramentos de mensagens e filas de espera
Bancos de dados de chave-valor

Assim como ocorre com as fontes de dados, a maioria dos coletores de dados fornece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do gravador, você especifica as seguintes opções:

Modo de saída (acrescentar por padrão). Consulte Selecionar um modo de saída para o Fluxo Estruturado.
Um local de ponto de verificação (necessário para cada gravador). Consulte Pontos de verificação de Fluxo Estruturado.
Intervalos de gatilho. Confira Configurar intervalos de gatilho do Streaming Estruturado
Opções que especificam o formato ou o coletor dos dados (por exemplo, tipo de arquivo, delimitadores e esquema).
Opções que configuram o acesso aos sistemas de destino (por exemplo, configurações de porta e credenciais).

Compartilhar via

Conceitos de Fluxo Estruturado

O que é o Streaming Estruturado?

Ler em um fluxo de dados

Gravar em um coletor de dados

Comentários

Recursos adicionais