Opzioni di formato dati

Articolo
07/27/2024

Azure Databricks include associazioni di parole chiave predefinite per tutti i formati di dati supportati in modo nativo da Apache Spark. Azure Databricks usa Delta Lake come protocollo predefinito per la lettura e la scrittura di dati e tabelle, mentre Apache Spark usa Parquet.

Questi articoli offrono una panoramica di molte delle opzioni e delle configurazioni disponibili quando si eseguono query sui dati in Azure Databricks.

I formati di dati seguenti hanno configurazioni di parole chiave predefinite in dataframe Apache Spark e SQL:

Azure Databricks fornisce anche una parola chiave personalizzata per il caricamento di esperimenti MLflow.

Formati di dati con considerazioni speciali

Alcuni formati di dati richiedono una configurazione aggiuntiva o considerazioni speciali per l'uso:

Databricks consiglia di caricare le immagini come binary dati.
Azure Databricks può leggere direttamente i file compressi in molti formati di file. Se necessario, è anche possibile decomprimere i file compressi in Azure Databricks.
LZO richiede un'installazione codec.

Per altre informazioni sulle origini dati Apache Spark, vedere l'articolo sulle funzioni generiche di caricamento/salvataggio e quello sulle opzioni generiche per le origini file.

Condividi tramite

Opzioni di formato dati

Formati di dati con considerazioni speciali

Commenti e suggerimenti

Risorse aggiuntive