Conceitos de Fluxo Estruturado
Este artigo fornece uma introdução ao Fluxo Estruturado no Azure Databricks.
O que é o Streaming Estruturado?
O Streaming Estruturado do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento único usando APIs conhecidas do Spark. Ele permite expressar a computação nos dados de streaming da mesma maneira que a computação em lote é expressada em dados estáticos. O mecanismo de Streaming Estruturado executa a computação incrementalmente e atualiza continuamente o resultado à medida que os dados de fluxo são recebidos.
Ler em um fluxo de dados
Você pode usar o Fluxo Estruturado para ingerir incrementalmente os dados de fontes de dados com suporte. Fontes de dados comuns incluem o seguinte:
- Arquivos de dados no armazenamento de objetos na nuvem. Confira O que é o Carregador Automático?.
- Barramentos de mensagens e filas de espera. Consulte Configurar fontes de dados de streaming.
- Delta Lake. Consulte Streaming de tabela Delta lê e grava.
Cada fonte de dados fornece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar as opções para fazer o seguinte:
- Especificam a fonte ou o formato de dados (por exemplo, tipo de arquivo, delimitadores e esquema).
- Configuram o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
- Especifique onde começar em um fluxo (por exemplo, offsets do Kafka ou leitura de todos os arquivos existentes).
- Controlam a quantidade de dados processados em cada lote (por exemplo, o máximo de offsets, arquivos ou bytes por lote). Consulte Configurar o tamanho de lote do Fluxo Estruturado no Azure Databricks.
Gravar em um coletor de dados
Um coletor de dados é o destino de uma operação de fluxo de gravação. Os coletores comuns usados nos fluxos de cargas de trabalho do Azure Databricks incluem o seguinte:
- Delta Lake
- Barramentos de mensagens e filas de espera
- Bancos de dados de chave-valor
Assim como ocorre com as fontes de dados, a maioria dos coletores de dados fornece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do gravador, você especifica as seguintes opções:
- Modo de saída (acrescentar por padrão). Consulte Selecionar um modo de saída para o Fluxo Estruturado.
- Um local de ponto de verificação (necessário para cada gravador). Consulte Pontos de verificação de Fluxo Estruturado.
- Intervalos de gatilho. Confira Configurar intervalos de gatilho do Streaming Estruturado
- Opções que especificam o formato ou o coletor dos dados (por exemplo, tipo de arquivo, delimitadores e esquema).
- Opções que configuram o acesso aos sistemas de destino (por exemplo, configurações de porta e credenciais).