Confrontare le modalità di rilevamento file del caricatore automatico

Il caricatore automatico supporta due modalità per il rilevamento di nuovi file: elenco di directory e notifica file. È possibile cambiare le modalità di individuazione dei file tra i riavvii del flusso e ottenere comunque garanzie di elaborazione dei dati esattamente una volta.

Modalità elenco directory

In modalità elenco directory, il caricatore automatico identifica i nuovi file elencando la directory di input. La modalità elenco directory consente di avviare rapidamente flussi del caricatore automatico senza configurazioni di autorizzazione diverse dall'accesso ai dati nell'archiviazione cloud.

In Databricks Runtime 9.1 e versioni successive, il caricatore automatico può rilevare automaticamente se i file arrivano con l'ordinamento lessicale per l'archiviazione cloud e ridurre significativamente la quantità di chiamate API necessarie per rilevare nuovi file. Per altri dettagli, vedere Che cos'è la modalità elenco directory del caricatore automatico?

Modalità di notifica file

La modalità di notifica file sfrutta i servizi di notifica file e coda nell'account dell'infrastruttura cloud. Il caricatore automatico può configurare automaticamente un servizio di notifica e un servizio di accodamento che sottoscrivono gli eventi di file dalla directory di input.

La modalità di notifica dei file è più efficiente e scalabile per directory di input di grandi dimensioni o un volume elevato di file, ma richiede autorizzazioni cloud aggiuntive per la configurazione. Per altre informazioni, vedere Che cos'è la modalità di notifica file del caricatore automatico?.

Archiviazione cloud supportata dalle modalità

Di seguito è riportata la disponibilità per queste modalità.

Se si esegue la migrazione da una posizione esterna o da un montaggio DBFS a un volume del catalogo Unity, il caricatore automatico continua a fornire garanzie di tipo exactly-once.

Archiviazione cloud Directory Notifiche file
AWS S3 Tutte le versioni Tutte le versioni
ADLS Gen2 Tutte le versioni Tutte le versioni
GCS Tutte le versioni Databricks Runtime 9.1 e versioni successive
Archiviazione BLOB di Azure Tutte le versioni Tutte le versioni
ADLS Gen1 Tutte le versioni Non supportato
DBFS Tutte le versioni Solo per i punti di montaggio
Volume del catalogo Unity Databricks Runtime 13.3 LTS e versioni successive Non supportata