Включение поддержки брандмауэра для учетной записи хранения рабочей области
Каждая рабочая область Azure Databricks имеет связанную учетную запись хранения Azure в управляемой группе ресурсов, известной как учетная запись хранения рабочей области. Учетная запись хранения рабочей области включает данные системы рабочей области (выходные данные задания, параметры системы и журналы), корневую базу данных DBFS и в некоторых случаях каталог рабочих областей каталога Unity. В этой статье описывается, как ограничить доступ к учетной записи хранения рабочей области только из авторизованных ресурсов и сетей с помощью шаблона ARM (Azure Resource Manager).
Что такое поддержка брандмауэра для учетной записи хранения рабочей области?
По умолчанию учетная запись хранения Azure для учетной записи хранения рабочей области принимает прошедшие проверку подлинности подключения из всех сетей. Этот доступ можно ограничить, включив поддержку брандмауэра для учетной записи хранения рабочей области. Это гарантирует, что доступ к общедоступной сети запрещен, а учетная запись хранения рабочей области недоступна из несанкционированных сетей. Это может потребоваться настроить, если у вашей организации есть политики Azure, которые гарантируют, что учетные записи хранения являются частными.
Если поддержка брандмауэра для учетной записи хранения рабочей области включена, все доступ из служб за пределами Azure Databricks должен использовать утвержденные частные конечные точки с Приватный канал. Azure Databricks создает соединитель доступа для подключения к хранилищу с помощью управляемого удостоверения Azure. Доступ из бессерверных вычислений Azure Databricks должен использовать конечные точки службы или частные конечные точки.
Требования
Рабочая область должна включить внедрение виртуальной сети для подключений из классической вычислительной плоскости.
Рабочая область должна включить безопасное подключение к кластеру (без общедоступного IP-адреса или NPIP) для подключений из классической вычислительной плоскости.
Рабочая область должна находиться в плане "Премиум".
Для частных конечных точек для учетной записи хранения должна быть отдельная подсеть. Это в дополнение к основным двум подсетям для базовых функций Azure Databricks.
Подсеть должна находиться в той же виртуальной сети, что и рабочая область или отдельная виртуальная сеть, к которым может получить доступ рабочая область. Используйте минимальный размер
/28
в нотации CIDR.Если вы используете Cloud Fetch с служба Power BI Microsoft Fabric, необходимо всегда использовать шлюз для частного доступа к учетной записи хранения рабочей области или отключить cloud Fetch. См . шаг 2 (рекомендуется). Настройка частных конечных точек для виртуальных сетей клиента Cloud Fetch.
Вы также можете использовать шаблон ARM на шаге 5. Разверните необходимый шаблон ARM для создания новой рабочей области. В этом случае завершите работу всех вычислительных ресурсов в рабочей области перед выполнением шагов 1–4.
Шаг 1. Создание частных конечных точек в учетной записи хранения
Создайте две частные конечные точки в учетной записи хранения рабочей области из виртуальной сети, которая использовалась для внедрения виртуальных сетей для значений целевого подресурсов : dfs
и blob
.
В портал Azure перейдите в рабочую область.
В разделе Essentials щелкните имя управляемой группы ресурсов.
В разделе "Ресурсы" щелкните ресурс типа учетной записи хранения с именем, начинающимся с
dbstorage
.На боковой панели щелкните "Сеть".
Щелкните подключения к частной конечной точке.
Щелкните + Частная конечная точка.
В поле "Имя группы ресурсов" задайте группу ресурсов.
Внимание
Группа ресурсов не должна совпадать с управляемой группой ресурсов, в которую входит учетная запись хранения рабочей области.
В поле "Имя" введите уникальное имя для этой частной конечной точки:
- Для первой частной конечной точки, создаваемой для каждой исходной сети, создайте конечную точку DFS. Databricks рекомендует добавить суффикс
-dfs-pe
- Для второй частной конечной точки, создаваемой для каждой исходной сети, создайте конечную точку BLOB-объекта. Databricks рекомендует добавить суффикс
-blob-pe
Поле "Имя сетевого интерфейса" автоматически заполняется.
- Для первой частной конечной точки, создаваемой для каждой исходной сети, создайте конечную точку DFS. Databricks рекомендует добавить суффикс
Задайте поле "Регион" в регионе рабочей области.
Нажмите кнопку Далее.
В подресурсе target щелкните тип целевого ресурса.
- Для первой частной конечной точки, создаваемой для каждой исходной сети, задайте для нее значение dfs.
- Для второй частной конечной точки, создаваемой для каждой исходной сети, задайте для этого большого двоичного объекта значение.
В поле "Виртуальная сеть" выберите виртуальную сеть.
В поле подсети задайте подсеть в отдельную подсеть, доступную для частных конечных точек для учетной записи хранения.
Это поле может автоматически заполняться подсетью для частных конечных точек, но может потребоваться явно задать его. Вы не можете использовать одну из двух подсетей рабочей области, которые используются для базовых функциональных возможностей рабочей области Azure Databricks, которые обычно называются
private-subnet
иpublic-subnet
.Нажмите кнопку Далее. Вкладка DNS автоматически заполняется правой подпиской и группой ресурсов, выбранной ранее. При необходимости измените их.
Нажмите кнопку "Далее" и добавьте теги при необходимости.
Нажмите кнопку "Далее" и просмотрите поля.
Нажмите кнопку Создать.
Чтобы отключить поддержку брандмауэра для учетной записи хранения рабочей области, используйте тот же процесс, что и выше, но задайте для параметра брандмауэр учетной записи хранения (storageAccountFirewall
в шаблоне) Disabled
и задайте Workspace Catalog Enabled
для этого поля true
значение или false
в зависимости от того, использует ли ваша рабочая область каталог каталогов Unity. См. статью "Что такое каталоги в Azure Databricks?".
Шаг 2 (рекомендуется). Настройка частных конечных точек для виртуальных сетей клиента Cloud Fetch
Cloud Fetch — это механизм в ODBC и JDBC для параллельного получения данных через облачное хранилище для ускорения работы с данными в средства бизнес-аналитики. Если вы извлекаете результаты запроса размером более 1 МБ из средств бизнес-аналитики, скорее всего, вы используете Cloud Fetch.
Примечание.
Если вы используете служба Power BI Microsoft Fabric с Azure Databricks, необходимо отключить Cloud Fetch, так как эта функция блокирует прямой доступ к учетной записи хранения рабочей области из Fabric Power BI. Кроме того, можно настроить шлюз данных виртуальной сети или локальный шлюз данных, чтобы разрешить частный доступ к учетной записи хранения рабочей области. Это не относится к Power BI Desktop. Чтобы отключить cloud Fetch, используйте конфигурацию EnableQueryResultDownload=0
.
Если вы используете Cloud Fetch, создайте частные конечные точки для учетной записи хранения рабочей области из любых виртуальных сетей клиентов Cloud Fetch.
Для каждой исходной сети для клиентов Cloud Fetch создайте две частные конечные точки, использующие два разных значения подресурсов целевого объекта: dfs
и blob
. См. шаг 1. Создание частных конечных точек в учетной записи хранения для подробных действий. В этих шагах для поля виртуальной сети при создании частной конечной точки убедитесь, что для каждого клиента Cloud Fetch укажите исходную виртуальную сеть.
Шаг 3. Подтверждение утверждений конечных точек
После создания всех частных конечных точек в учетной записи хранения проверьте, утверждены ли они. Они могут автоматически утвердить или может потребоваться утвердить их в учетной записи хранения.
- Перейдите к рабочей области на портале Azure.
- В разделе Essentials щелкните имя управляемой группы ресурсов.
- В разделе "Ресурсы" щелкните ресурс типа учетной записи хранения с именем, начинающимся с
dbstorage
. - На боковой панели щелкните "Сеть".
- Щелкните подключения к частной конечной точке.
- Проверьте состояние подключения, чтобы подтвердить, что они говорят", или выберите их и нажмите кнопку "Утвердить".
Шаг 4. Авторизация бессерверных вычислительных подключений
Для подключения к учетной записи хранения рабочей области необходимо авторизовать бессерверные вычисления, подключив конфигурацию сетевого подключения (NCC) к рабочей области. При присоединении NCC к рабочей области правила сети автоматически добавляются в учетную запись хранения Azure для учетной записи хранения рабочей области. Инструкции см. в разделе "Настройка брандмауэра для бессерверного доступа к вычислительным ресурсам".
Если вы хотите включить доступ из бессерверных вычислений Azure Databricks с помощью частных конечных точек, обратитесь к группе учетной записи Azure Databricks.
Шаг 5. Развертывание необходимого шаблона ARM
На этом шаге используется шаблон ARM для управления рабочей областью Azure Databricks. Вы также можете обновить или создать рабочую область с помощью Terraform. См. azurerm_databricks_workspace поставщик Terraform.
В портал Azure найдите и выберите
Deploy a custom template
.Выберите Создать собственный шаблон в редакторе.
Скопируйте шаблон ARM из шаблона ARM для поддержки брандмауэра для учетной записи хранения рабочей области и вставьте его в редактор.
Нажмите кнопку Сохранить.
Просмотр и изменение полей. Используйте те же параметры, которые использовались для создания рабочей области, например подписки, региона, имени рабочей области, имен подсети, идентификатора ресурса существующей виртуальной сети.
Описание полей см. в разделе "Поля шаблона ARM".
Нажмите кнопку "Рецензирование" и "Создать" и "Создать".
Примечание.
Доступ к общедоступной сети в учетной записи хранения рабочей области включен из выбранных виртуальных сетей и IP-адресов, а не отключен для поддержки бессерверных вычислительных ресурсов, не требуя частных конечных точек. Учетная запись хранения рабочей области находится в управляемой группе ресурсов, и брандмауэр хранилища можно обновить только при добавлении конфигурации сетевого подключения (NCC) для бессерверных подключений к рабочей области. Если вы хотите включить доступ из бессерверных вычислений Azure Databricks с помощью частных конечных точек, обратитесь к группе учетной записи Azure Databricks.