Comparar modos de detecção de arquivo do Carregador Automático

O Carregador automático é compatível com dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivo. Você pode alternar os modos de descoberta de arquivos nas reinicializações de fluxo e obter garantias de processamento de dados apenas uma vez.

Modo de listagem de diretório

No modo de listagem de diretório, o Carregador Automático identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que se inicie rapidamente fluxos do Carregador automático sem nenhuma configuração de permissão, além do acesso aos dados no armazenamento em nuvem.

No Databricks Runtime 9.1 e superiores, o Carregador automático pode detectar automaticamente se os arquivos estão vindo com ordenação lexical no armazenamento em nuvem e reduz significativamente a quantidade de chamadas à API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretório do Carregador Automático? para obter mais detalhes.

Modo de notificação de arquivo

O modo de notificação de arquivo aproveita os serviços de fila e notificação de arquivo na sua conta de infraestrutura de nuvem. O Carregador Automático pode configurar automaticamente um serviço de notificação e um serviço de fila que assinam eventos de arquivo do diretório de entrada.

O modo de notificação de arquivos é mais eficaz e escalonável para grandes diretórios de entrada ou alto volume de arquivos, mas requer permissões adicionais de nuvem para configuração. Para obter mais informações, confira O que é o modo de notificação de arquivo do Carregador Automático?.

Armazenamento em nuvem com suporte dos modos

A disponibilidade para esses modos está listada abaixo.

Se você migrar de um local externo ou uma montagem do DBFS para um volume do Catálogo do Unity, o Carregador Automático continuará fornecendo garantias de exatamente uma vez.

Armazenamento em nuvem Listagem de diretório Notificações de arquivos
AWS S3 Todas as versões Todas as versões
ADLS Gen2 Todas as versões Todas as versões
GCS Todas as versões Databricks Runtime 9.1 e superiores
Armazenamento do Blobs do Azure Todas as versões Todas as versões
ADLS Gen1 Todas as versões Sem suporte
DBFS Todas as versões Somente para pontos de montagem
Volume do Catálogo do Unity Databricks Runtime 13.3 LTS e superior Sem suporte