Параметры формата данных

Azure Databricks имеет встроенные привязки ключевых слов для всех форматов данных, поддерживаемых Apache Spark. Azure Databricks использует Delta Lake в качестве протокола по умолчанию для чтения и записи данных и таблиц, в то время как Apache Spark использует Parquet.

В этих статьях представлен обзор многих параметров и конфигураций, доступных при запросе данных в Azure Databricks.

Следующие форматы данных имеют встроенные конфигурации ключевых слов в Кадрах данных Apache Spark и SQL:

Azure Databricks также предоставляет пользовательское ключевое слово для загрузки экспериментов MLflow.

Форматы данных с особыми рекомендациями

Для использования некоторых форматов данных требуется дополнительная конфигурация или специальные рекомендации.

  • Databricks рекомендует загружать изображения в качестве binary данных.
  • Azure Databricks может напрямую считывать сжатые файлы во многих форматах файлов. При необходимости можно распакуть сжатые файлы в Azure Databricks.
  • Для LZO требуется установка кодека.

Дополнительные сведения об источниках данных Apache Spark см. в статье Generic Load/Save Functions (Универсальные функции загрузки и сохранения) и Generic File Source Options (Универсальные параметры источников файлов).