Параметры формата данных
Azure Databricks имеет встроенные привязки ключевых слов для всех форматов данных, поддерживаемых Apache Spark. Azure Databricks использует Delta Lake в качестве протокола по умолчанию для чтения и записи данных и таблиц, в то время как Apache Spark использует Parquet.
В этих статьях представлен обзор многих параметров и конфигураций, доступных при запросе данных в Azure Databricks.
Следующие форматы данных имеют встроенные конфигурации ключевых слов в Кадрах данных Apache Spark и SQL:
Azure Databricks также предоставляет пользовательское ключевое слово для загрузки экспериментов MLflow.
Форматы данных с особыми рекомендациями
Для использования некоторых форматов данных требуется дополнительная конфигурация или специальные рекомендации.
- Databricks рекомендует загружать изображения в качестве
binary
данных. - Azure Databricks может напрямую считывать сжатые файлы во многих форматах файлов. При необходимости можно распакуть сжатые файлы в Azure Databricks.
- Для LZO требуется установка кодека.
Дополнительные сведения об источниках данных Apache Spark см. в статье Generic Load/Save Functions (Универсальные функции загрузки и сохранения) и Generic File Source Options (Универсальные параметры источников файлов).