Рекомендации по файлам в томах и файлах рабочей области

При отправке или сохранении данных или файлов в Azure Databricks можно сохранить эти файлы с помощью томов каталога Unity или файлов рабочей области. В этой статье содержатся рекомендации и требования к использованию этих расположений. Дополнительные сведения о томах и файлах рабочей области см. в разделе "Что такое тома каталога Unity" и "Что такое файлы рабочих областей?".

Databricks рекомендует использовать тома каталога Unity для хранения данных, библиотек и артефактов сборки. Храните записные книжки, запросы SQL и файлы кода в виде файлов рабочей области. Каталоги файлов рабочей области можно настроить как папки Git для синхронизации с удаленными репозиториями Git. См . сведения об интеграции с Git для папок Databricks Git. Небольшие файлы данных, используемые для тестовых сценариев, также могут храниться в виде файлов рабочей области.

В таблицах ниже приведены конкретные рекомендации по файлам в зависимости от типа файла или компонента.

Внимание

Файловая система Databricks (DBFS) также доступна для хранилища файлов, но не рекомендуется, так как у всех пользователей рабочей области есть доступ к файлам в DBFS. См . раздел DBFS.

Типы файлов

В следующей таблице приведены рекомендации по хранилищу для типов файлов. Databricks поддерживает множество форматов файлов за пределами того, что предоставляется в этой таблице в качестве примеров.

Тип файла Рекомендация
Объекты Databricks, такие как записные книжки и запросы Хранение файлов рабочей области в виде файлов рабочей области
Структурированные файлы данных, такие как файлы Parquet и ФАЙЛЫ ORC Хранение томов каталога Unity
Полуструктурированные файлы данных, такие как текстовые файлы (.csv, .txt) и JSON-файлы (.json) Хранение томов каталога Unity
Неструктурированные файлы данных, такие как файлы изображений (.png, ), .svgаудиофайлы (.mp3) и файлы документов (.pdf, .docx) Хранение томов каталога Unity
Необработанные файлы данных, используемые для отложенного или раннего изучения данных Хранение томов каталога Unity
Операционные данные, такие как файлы журналов Хранение томов каталога Unity
Большие архивные файлы, такие как ZIP-файлы (.zip) Хранение томов каталога Unity
Файлы исходного кода, такие как файлы Python (), файлы Java (.py.java) и Scala files (.scala) Храните в качестве файлов рабочей области, если применимо, с другими связанными объектами, такими как записные книжки и запросы.

Databricks рекомендует управлять этими файлами в папке Git для управления версиями и отслеживания изменений этих файлов.
Создание артефактов и библиотек, таких как колеса Python (.whl) и JAR-файлы (.jar) Хранение томов каталога Unity
Файлы конфигурации Сохраните файлы конфигурации, необходимые для рабочих областей в томах каталога Unity, но сохраните их в виде файлов рабочей области, если они являются файлами проекта в папке Git.

Сравнение функций

В следующей таблице сравниваются предложения функций файлов рабочей области и томов каталога Unity.

Функция Файлы рабочей области Тома каталога Unity
Доступ к файлам Файлы рабочей области доступны только друг другу в одной рабочей области. Файлы доступны глобально в разных рабочих областях.
Программный доступ Доступ к файлам можно получить с помощью:

— API Spark
- ВЗРЫВАТЕЛЬ
- dbutils
- REST API
- Пакеты SDK databricks
- CLI Databricks
Доступ к файлам можно получить с помощью:

— API Spark
- ВЗРЫВАТЕЛЬ
- dbutils
- REST API
- Пакеты SDK databricks
- Соединители SQL Databricks
- CLI Databricks
- Поставщик Databricks Terraform
Пакеты активов Databricks По умолчанию все файлы в пакете, в том числе библиотеки и объекты Databricks, такие как записные книжки и запросы, развертываются безопасно в виде файлов рабочей области. Разрешения определяются в конфигурации пакета. Пакеты можно настроить для включения библиотек, уже имеющихся в томах, если библиотеки превышают предел размера файлов рабочей области. См . сведения о зависимостях библиотеки пакетов ресурсов Databricks.
Уровень разрешений файла Разрешения находятся на уровне папки Git, если файл находится в папке Git, в противном случае разрешения задаются на уровне файла. Разрешения находятся на уровне тома.
Управление разрешениями Разрешения управляются списками управления доступом рабочей области и ограничены содержащимися рабочими областями. Метаданные и разрешения управляются каталогом Unity. Эти разрешения применимы во всех рабочих областях, имеющих доступ к каталогу.
Подключение внешнего хранилища Не поддерживает подключение внешнего хранилища Предоставляет возможность указывать на существующие наборы данных во внешнем хранилище путем создания внешнего тома. См. раздел "Что такое тома каталога Unity?".
Поддержка UDF Не поддерживается Запись из определяемых пользователем файлов поддерживается с помощью томов FUSE
Размер файла Храните небольшие файлы менее 500 МБ, например файлы исходного кода (.py, .md, ), .ymlнеобходимые вместе с записными книжками. Храните очень большие файлы данных в ограничениях, определенных поставщиками облачных служб.
Отправка и скачивание Поддержка отправки и скачивания до 10 МБ. Поддержка отправки и скачивания до 5 ГБ.
Поддержка создания таблиц Таблицы нельзя создавать с файлами рабочей области в качестве расположения. Таблицы можно создавать из файлов в томе, запустив COPY INTOавтозагрузчик или другие параметры, описанные в разделе "Прием данных" в озере Databricks.
Структура каталогов и пути к файлам Файлы организованы в вложенных каталогах, каждая из которых имеет собственную модель разрешений:

— Домашние каталоги пользователей, по одному для каждого пользователя и субъекта-службы в рабочей области
— папки Git
-Совместный
Файлы организованы в вложенных каталогах внутри тома

Узнайте, как получить доступ к данным в каталоге Unity?
Журнал файлов Используйте папку Git в рабочих областях для отслеживания изменений файлов. Доступны журналы аудита.