Opzioni di formato dati
Azure Databricks include associazioni di parole chiave predefinite per tutti i formati di dati supportati in modo nativo da Apache Spark. Azure Databricks usa Delta Lake come protocollo predefinito per la lettura e la scrittura di dati e tabelle, mentre Apache Spark usa Parquet.
Questi articoli offrono una panoramica di molte delle opzioni e delle configurazioni disponibili quando si eseguono query sui dati in Azure Databricks.
I formati di dati seguenti hanno configurazioni di parole chiave predefinite in dataframe Apache Spark e SQL:
Azure Databricks fornisce anche una parola chiave personalizzata per il caricamento di esperimenti MLflow.
Formati di dati con considerazioni speciali
Alcuni formati di dati richiedono una configurazione aggiuntiva o considerazioni speciali per l'uso:
- Databricks consiglia di caricare le immagini come
binary
dati. - Azure Databricks può leggere direttamente i file compressi in molti formati di file. Se necessario, è anche possibile decomprimere i file compressi in Azure Databricks.
- LZO richiede un'installazione codec.
Per altre informazioni sulle origini dati Apache Spark, vedere l'articolo sulle funzioni generiche di caricamento/salvataggio e quello sulle opzioni generiche per le origini file.