Рекомендации по файлам в томах и файлах рабочей области
При отправке или сохранении данных или файлов в Azure Databricks можно сохранить эти файлы с помощью томов каталога Unity или файлов рабочей области. В этой статье содержатся рекомендации и требования к использованию этих расположений. Дополнительные сведения о томах и файлах рабочей области см. в разделе "Что такое тома каталога Unity" и "Что такое файлы рабочих областей?".
Databricks рекомендует использовать тома каталога Unity для хранения данных, библиотек и артефактов сборки. Храните записные книжки, запросы SQL и файлы кода в виде файлов рабочей области. Каталоги файлов рабочей области можно настроить как папки Git для синхронизации с удаленными репозиториями Git. См . сведения об интеграции с Git для папок Databricks Git. Небольшие файлы данных, используемые для тестовых сценариев, также могут храниться в виде файлов рабочей области.
В таблицах ниже приведены конкретные рекомендации по файлам в зависимости от типа файла или компонента.
Внимание
Файловая система Databricks (DBFS) также доступна для хранилища файлов, но не рекомендуется, так как у всех пользователей рабочей области есть доступ к файлам в DBFS. См . раздел DBFS.
Типы файлов
В следующей таблице приведены рекомендации по хранилищу для типов файлов. Databricks поддерживает множество форматов файлов за пределами того, что предоставляется в этой таблице в качестве примеров.
Сравнение функций
В следующей таблице сравниваются предложения функций файлов рабочей области и томов каталога Unity.
Функция | Файлы рабочей области | Тома каталога Unity |
---|---|---|
Доступ к файлам | Файлы рабочей области доступны только друг другу в одной рабочей области. | Файлы доступны глобально в разных рабочих областях. |
Программный доступ | Доступ к файлам можно получить с помощью: — API Spark - ВЗРЫВАТЕЛЬ - dbutils - REST API - Пакеты SDK databricks - CLI Databricks |
Доступ к файлам можно получить с помощью: — API Spark - ВЗРЫВАТЕЛЬ - dbutils - REST API - Пакеты SDK databricks - Соединители SQL Databricks - CLI Databricks - Поставщик Databricks Terraform |
Пакеты активов Databricks | По умолчанию все файлы в пакете, в том числе библиотеки и объекты Databricks, такие как записные книжки и запросы, развертываются безопасно в виде файлов рабочей области. Разрешения определяются в конфигурации пакета. | Пакеты можно настроить для включения библиотек, уже имеющихся в томах, если библиотеки превышают предел размера файлов рабочей области. См . сведения о зависимостях библиотеки пакетов ресурсов Databricks. |
Уровень разрешений файла | Разрешения находятся на уровне папки Git, если файл находится в папке Git, в противном случае разрешения задаются на уровне файла. | Разрешения находятся на уровне тома. |
Управление разрешениями | Разрешения управляются списками управления доступом рабочей области и ограничены содержащимися рабочими областями. | Метаданные и разрешения управляются каталогом Unity. Эти разрешения применимы во всех рабочих областях, имеющих доступ к каталогу. |
Подключение внешнего хранилища | Не поддерживает подключение внешнего хранилища | Предоставляет возможность указывать на существующие наборы данных во внешнем хранилище путем создания внешнего тома. См. раздел "Что такое тома каталога Unity?". |
Поддержка UDF | Не поддерживается | Запись из определяемых пользователем файлов поддерживается с помощью томов FUSE |
Размер файла | Храните небольшие файлы менее 500 МБ, например файлы исходного кода (.py , .md , ), .yml необходимые вместе с записными книжками. |
Храните очень большие файлы данных в ограничениях, определенных поставщиками облачных служб. |
Отправка и скачивание | Поддержка отправки и скачивания до 10 МБ. | Поддержка отправки и скачивания до 5 ГБ. |
Поддержка создания таблиц | Таблицы нельзя создавать с файлами рабочей области в качестве расположения. | Таблицы можно создавать из файлов в томе, запустив COPY INTO автозагрузчик или другие параметры, описанные в разделе "Прием данных" в озере Databricks. |
Структура каталогов и пути к файлам | Файлы организованы в вложенных каталогах, каждая из которых имеет собственную модель разрешений: — Домашние каталоги пользователей, по одному для каждого пользователя и субъекта-службы в рабочей области — папки Git -Совместный |
Файлы организованы в вложенных каталогах внутри тома Узнайте, как получить доступ к данным в каталоге Unity? |
Журнал файлов | Используйте папку Git в рабочих областях для отслеживания изменений файлов. | Доступны журналы аудита. |