Compare os modos de deteção de arquivos do Auto Loader
Auto Loader suporta dois modos para detetar novos arquivos: listagem de diretório e notificação de arquivos. Você pode alternar os modos de descoberta de arquivos em reinicializações de fluxo e ainda obter garantias de processamento de dados exatamente uma vez.
Modo de listagem de diretório
No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que você inicie rapidamente fluxos do Auto Loader sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.
No Databricks Runtime 9.1 e superior, o Auto Loader pode detetar automaticamente se os arquivos estão chegando com pedidos lexicais ao seu armazenamento em nuvem e reduzir significativamente a quantidade de chamadas de API necessárias para detetar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para obter mais detalhes.
Modo de notificação de arquivo
O modo de notificação de arquivos aproveita os serviços de notificação de arquivos e filas em sua conta de infraestrutura de nuvem. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que assinam eventos de arquivo a partir do diretório de entrada.
O modo de notificação de arquivos é mais eficiente e escalável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer permissões de nuvem adicionais para configurar. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader?.
Armazenamento na nuvem suportado por modos
A disponibilidade para estes modos está listada abaixo.
Se você migrar de um local externo ou de uma montagem DBFS para um volume do Catálogo Unity, o Auto Loader continuará a fornecer garantias exatas uma vez.
Armazenamento na Nuvem | Lista de diretórios | Notificações de arquivo |
---|---|---|
AWS S3 | Todas as versões | Todas as versões |
ADLS Gen2 | Todas as versões | Todas as versões |
GCS | Todas as versões | Databricks Runtime 9.1 e superior |
Armazenamento de Blobs do Azure | Todas as versões | Todas as versões |
ADLS Gen1 | Todas as versões | Não suportado |
DBFS | Todas as versões | Apenas para pontos de montagem |
Volume do catálogo Unity | Databricks Runtime 13.3 LTS e superior | Não suportado |