Объекты базы данных в Azure Databricks
Azure Databricks использует два основных защищаемых объекта для хранения и доступа к данным.
- Таблицы управляют доступом к табличным данным.
- Тома управляют доступом к не табличным данным.
В этой статье описывается, как эти объекты базы данных относятся к каталогам, схемам, представлениям и другим объектам базы данных в Azure Databricks. Эта статья также содержит общие сведения о том, как объекты базы данных работают в контексте общей архитектуры платформы.
Что такое объекты базы данных в Azure Databricks?
Объекты базы данных — это сущности, которые помогают упорядочивать, получать доступ к данным и управлять ими. Azure Databricks использует трехуровневую иерархию для упорядочивания объектов базы данных:
- Каталог: контейнер верхнего уровня содержит схемы. См. статью "Что такое каталоги в Azure Databricks?".
- Схема или база данных: содержит объекты данных. См. сведения о схемах в Azure Databricks?.
- Объекты данных, которые могут содержаться в схеме:
- Том: логический том не табличных данных в облачном хранилище объектов. См. раздел "Что такое тома каталога Unity?".
- Таблица: коллекция данных, упорядоченная по строкам и столбцам. См. статью "Что такое таблицы и представления?".
- Представление: сохраненный запрос к одной или нескольким таблицам. См . представление?.
- Функция: сохраненная логика, возвращающая скалярное значение или набор строк. См . определяемые пользователем функции в каталоге Unity.
- Модель: модель машинного обучения, упаковаемая с помощью MLflow. См. статью "Управление жизненным циклом модели" в каталоге Unity.
Каталоги регистрируются в хранилище метаданных, управляемом на уровне учетной записи. Только администраторы взаимодействуют непосредственно с хранилищем метаданных. См . раздел "Хранилища метаданных".
Azure Databricks предоставляет дополнительные ресурсы для работы с данными, все из которых можно управлять с помощью элементов управления доступом на уровне рабочей области или каталога Unity, решения по управлению данными Databricks:
- Ресурсы данных уровня рабочей области, такие как записные книжки, задания и запросы.
- Защищаемые объекты каталога Unity, такие как учетные данные хранения и общие папки Delta Sharing, которые главным образом управляют доступом к хранилищу или безопасному совместному использованию.
Дополнительные сведения см. в разделе "Объекты базы данных" и защищаемые ресурсы данных рабочей области и защищаемые учетные данные каталога Unity.
Управление доступом к объектам базы данных с помощью каталога Unity
Вы можете предоставить и отозвать доступ к объектам базы данных на любом уровне иерархии, включая само хранилище метаданных. Доступ к объекту неявно предоставляет одинаковый доступ ко всем дочерним элементам этого объекта, если доступ не отменяется.
Стандартные команды ANSI SQL можно использовать для предоставления и отмены доступа к объектам в каталоге Unity. Вы также можете использовать обозреватель каталогов для управления привилегиями объекта данных на основе пользовательского интерфейса.
Дополнительные сведения о защите объектов в каталоге Unity см. в разделе "Защищаемые объекты в каталоге Unity".
Разрешения объектов по умолчанию в каталоге Unity
В зависимости от того, как была создана и включена рабочая область для каталога Unity, пользователи могут иметь разрешения по умолчанию для автоматически подготовленных каталогов, включая main
каталог или каталог рабочей области (<workspace-name>
). Дополнительные сведения см. в разделе "Привилегии пользователей по умолчанию".
Если ваша рабочая область была включена вручную для каталога Unity, она включает схему default
по умолчанию в каталоге main
, доступную всем пользователям в рабочей области. Если рабочая область была включена для каталога Unity автоматически и включает <workspace-name>
каталог, этот каталог содержит схему с именем default
, которая доступна всем пользователям в рабочей области.
Объекты базы данных и защищаемые ресурсы данных рабочей области
Azure Databricks позволяет управлять несколькими ресурсами аналитики, аналитики, машинного обучения и искусственного интеллекта вместе с объектами базы данных. Эти ресурсы данных не регистрируются в каталоге Unity. Вместо этого эти ресурсы управляются на уровне рабочей области, используя списки элементов управления для управления разрешениями. К этим ресурсам данных относятся следующие:
- Записные книжки
- Панели мониторинга
- Работы
- Pipelines
- Файлы рабочей области
- SQL-запросы
- Эксперименты
Большинство ресурсов данных содержат логику, которая взаимодействует с объектами базы данных для запроса данных, использования функций, регистрации моделей или других распространенных задач. Дополнительные сведения о защите ресурсов данных рабочей области см . в списках управления доступом.
Примечание.
Доступ к вычислительным ресурсам регулируется списками управления доступом. Вы настраиваете вычисления с помощью режима доступа и можете добавлять дополнительные облачные разрешения, которые управляют доступом пользователей к данным. Databricks рекомендует использовать политики вычислений и ограничивать привилегии создания кластера в качестве рекомендации по управлению данными. См . режимы доступа.
Защищаемые учетные данные и инфраструктура каталога Unity
Каталог Unity управляет доступом к облачному хранилищу объектов, обмену данными и федерации запросов с помощью защищаемых объектов, зарегистрированных на уровне хранилища метаданных. Ниже приведены краткие описания этих защищаемых объектов, не являющихся данными.
Подключение каталога Unity к облачному хранилищу объектов
Необходимо определить учетные данные хранения и внешние расположения, чтобы создать новое управляемое расположение хранилища или зарегистрировать внешние таблицы или внешние тома. Эти защищаемые объекты регистрируются в каталоге Unity:
- Учетные данные хранения: долгосрочные облачные учетные данные, предоставляющие доступ к облачному хранилищу.
- Внешнее расположение: ссылка на путь к хранилищу облачных объектов, доступная с помощью парных учетных данных хранилища.
См. статью "Подключение к облачному хранилищу объектов и службам с помощью каталога Unity".
Разностный общий доступ
Azure Databricks регистрирует следующие защищаемые объекты Delta Sharing в каталоге Unity:
- Общий доступ: коллекция таблиц, томов и других ресурсов данных только для чтения.
- Поставщик: организация или сущность, которая предоставляет общий доступ к данным. В модели общего доступа Databricks to Databricks поставщик регистрируется в хранилище метаданных каталога Unity получателя в качестве уникальной сущности, определяемой его идентификатором хранилища метаданных.
- Получатель: сущность, получающая общие папки от поставщика. В модели общего доступа Databricks to Databricks получатель определяется поставщиком по уникальному идентификатору хранилища метаданных.
См. раздел "Что такое разностный общий доступ?".
Федерация Lakehouse
Федерация Lakehouse позволяет создавать внешние каталоги для предоставления доступа только для чтения к данным, размещенным в других системах, таких как PostgreSQL, MySQL и Snowflake. Для создания внешних каталогов необходимо определить подключение к внешней системе.
Подключение: защищаемый объект каталога Unity указывает путь и учетные данные для доступа к внешней системе баз данных в сценарии федерации Lakehouse.
См. статью "Что такое Федерация Lakehouse?".
Расположения управляемого хранилища для управляемых томов и таблиц
При создании таблиц и томов Azure Databricks вы можете сделать их управляемыми или внешними. Каталог Unity управляет доступом к внешним таблицам и томам из Azure Databricks, но не управляет базовыми файлами или полностью управляет расположением хранилища этих файлов. С другой стороны, управляемые таблицы и тома полностью управляются каталогом Unity и хранятся в управляемом расположении хранилища, связанном с содержащей схемой. См. раздел "Указание расположения управляемого хранилища" в каталоге Unity.
Databricks рекомендует управляемые тома и управляемые таблицы для большинства рабочих нагрузок, так как они упрощают настройку, оптимизацию и управление.
Каталог Unity и устаревшее хранилище метаданных Hive
Databricks рекомендует использовать каталог Unity для регистрации и управления всеми объектами базы данных, но также предоставляет устаревшую поддержку хранилища метаданных Hive для управления схемами, таблицами, представлениями и функциями.
Если вы взаимодействуете с объектами базы данных, зарегистрированными с помощью хранилища метаданных Hive, см . статью "Объекты базы данных" в устаревшем хранилище метаданных Hive.