Преобразование данных путем выполнения действия Azure Databricks

Статья
06/21/2024

Действие Azure Databricks в Фабрике данных для Microsoft Fabric позволяет управлять следующими заданиями Azure Databricks:

Записная книжка
Jar
Python

В этой статье приведены пошаговые инструкции по созданию действия Azure Databricks с помощью интерфейса фабрики данных.

Необходимые компоненты

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Учетная запись клиента с активной подпиской. Создайте учетную запись бесплатно .
Создается рабочая область.

Настройка действия Azure Databricks

Чтобы использовать действие Azure Databricks в конвейере, выполните следующие действия.

Настройка подключения

Создайте конвейер в рабочей области.
Щелкните добавить действие конвейера и найдите Azure Databricks.
Кроме того, вы можете найти Azure Databricks в области действий конвейера и выбрать его, чтобы добавить его на холст конвейера.
Выберите новое действие Azure Databricks на холсте, если оно еще не выбрано.

Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".

Настройка кластеров

Перейдите на вкладку "Кластер". Затем можно выбрать существующее или создать подключение Azure Databricks, а затем выбрать новый кластер заданий, существующий интерактивный кластер или существующий пул экземпляров.
В зависимости от того, что вы выбрали для кластера, заполните соответствующие поля, как показано.
- В новом кластере заданий и существующем пуле экземпляров также есть возможность настроить количество рабочих ролей и включить точечные экземпляры.
Можно также указать дополнительные параметры кластера, такие как политика кластера, конфигурация Spark, переменные среды Spark и настраиваемые теги, необходимые для подключаемого кластера. Скрипты databricks init и путь назначения журнала кластера также можно добавить в дополнительные параметры кластера.

Примечание.

Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрика данных Azure Azure Databricks, теперь также поддерживаются в действии Azure Databricks в Microsoft Fabric в разделе "Дополнительная конфигурация кластера" в пользовательском интерфейсе. Так как эти свойства теперь включены в пользовательский интерфейс действия; их можно легко использовать с выражением (динамическим содержимым) без необходимости в расширенной спецификации JSON в связанной службе Azure Databricks Фабрика данных Azure.
Действие Azure Databricks теперь также поддерживает поддержку политики кластера и каталога Unity.
- В разделе "Дополнительные параметры" можно выбрать политику кластера, чтобы указать, какие конфигурации кластера разрешены.
- Кроме того, в разделе "Дополнительные параметры" можно настроить режим доступа к каталогу Unity для дополнительной безопасности. Доступные типы режима доступа:
  - Режим доступа к одному пользователю предназначен для сценариев, в которых каждый кластер используется одним пользователем. Это гарантирует, что доступ к данным в кластере ограничен только этим пользователем. Этот режим полезен для задач, требующих изоляции и обработки отдельных данных.
  - Режим общего доступа в этом режиме несколько пользователей могут получить доступ к одному кластеру. Он объединяет управление данными каталога Unity с устаревшими списками управления доступом к таблицам (ACL). Этот режим обеспечивает совместный доступ к данным при сохранении протоколов управления и безопасности. Однако он имеет определенные ограничения, такие как отсутствие поддержки машинного обучения Databricks Runtime, заданий отправки Spark и определенных API Spark и определяемых пользователем пользователей.
  - Этот режим доступа не отключает взаимодействие с каталогом Unity, то есть кластеры не имеют доступа к данным, управляемым каталогом Unity. Этот режим полезен для рабочих нагрузок, для которых не требуются функции управления каталогом Unity.

Настройка параметров

Выбрав вкладку "Параметры" , можно выбрать один из 3 параметров, тип которых azure Databricks требуется оркестровать.

Снимок экрана: вкладка

Оркестрация типа Notebook в действии Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель "Записная книжка", чтобы запустить записную книжку. Для выполнения задания необходимо указать путь к записной книжке, который будет выполняться в Azure Databricks, необязательные базовые параметры, передаваемые в записную книжку, и все дополнительные библиотеки, установленные в кластере.

Оркестрация типа Jar в действии Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель Jar для запуска jar-файла. Для выполнения задания необходимо указать имя класса, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые jar-файлу, и все дополнительные библиотеки, установленные в кластере.

Оркестрация типа Python в действии Azure Databricks:

На вкладке "Параметры" можно выбрать переключатель Python для запуска файла Python . Для выполнения задания необходимо указать путь в Azure Databricks к исполняемому файлу Python, необязательным базовым параметрам и любым дополнительным библиотекам, установленным в кластере.

Поддерживаемые библиотеки для действия Azure Databricks

В приведенном выше определении действия Databricks можно указать следующие типы библиотек: jar, яйцо, whl, maven, pypi, cran.

Дополнительные сведения см. в документации Databricks по типам библиотек.

Передача параметров между действием Azure Databricks и конвейерами

Вы можете передавать параметры в записные книжки с помощью свойства baseParameters в действии Databricks.

Иногда может требоваться передать определенные значения из записной книжки обратно в службу для потока управления (условные проверки) в службе или для использования нисходящими действиями (ограничение размера — 2 МБ).

Например, в записной книжке можно вызвать dbutils.notebook.exit("returnValue") и соответствующий "returnValue" будет возвращен в службу.
Выходные данные в службе можно использовать с помощью выражения, такого как @{activity('databricks activity name').output.runOutput}.

Снимок экрана: передача базовых параметров в действии Azure Databricks.

Сохранение и запуск или планирование конвейера

После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.

Снимок экрана: сохранение и запуск конвейера.

Мониторинг запусков конвейера

Поделиться через

Преобразование данных путем выполнения действия Azure Databricks

Необходимые компоненты