Преобразование данных путем выполнения действия Azure Databricks

Действие Azure Databricks в Фабрике данных для Microsoft Fabric позволяет управлять следующими заданиями Azure Databricks:

  • Записная книжка
  • Jar
  • Python

В этой статье приведены пошаговые инструкции по созданию действия Azure Databricks с помощью интерфейса фабрики данных.

Необходимые компоненты

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Настройка действия Azure Databricks

Чтобы использовать действие Azure Databricks в конвейере, выполните следующие действия.

Настройка подключения

  1. Создайте конвейер в рабочей области.

  2. Щелкните добавить действие конвейера и найдите Azure Databricks.

    Снимок экрана: целевая страница конвейеров данных Fabric и выделенное действие Azure Databricks.

  3. Кроме того, вы можете найти Azure Databricks в области действий конвейера и выбрать его, чтобы добавить его на холст конвейера.

    Снимок экрана: пользовательский интерфейс Fabric с выделенной областью действий и действием Azure Databricks.

  4. Выберите новое действие Azure Databricks на холсте, если оно еще не выбрано.

    Снимок экрана: вкладка

Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".

Настройка кластеров

  1. Перейдите на вкладку "Кластер". Затем можно выбрать существующее или создать подключение Azure Databricks, а затем выбрать новый кластер заданий, существующий интерактивный кластер или существующий пул экземпляров.

  2. В зависимости от того, что вы выбрали для кластера, заполните соответствующие поля, как показано.

    • В новом кластере заданий и существующем пуле экземпляров также есть возможность настроить количество рабочих ролей и включить точечные экземпляры.
  3. Можно также указать дополнительные параметры кластера, такие как политика кластера, конфигурация Spark, переменные среды Spark и настраиваемые теги, необходимые для подключаемого кластера. Скрипты databricks init и путь назначения журнала кластера также можно добавить в дополнительные параметры кластера.

    Примечание.

    Все расширенные свойства кластера и динамические выражения, поддерживаемые в связанной службе Фабрика данных Azure Azure Databricks, теперь также поддерживаются в действии Azure Databricks в Microsoft Fabric в разделе "Дополнительная конфигурация кластера" в пользовательском интерфейсе. Так как эти свойства теперь включены в пользовательский интерфейс действия; их можно легко использовать с выражением (динамическим содержимым) без необходимости в расширенной спецификации JSON в связанной службе Azure Databricks Фабрика данных Azure.

    Снимок экрана: вкладка

  4. Действие Azure Databricks теперь также поддерживает поддержку политики кластера и каталога Unity.

    • В разделе "Дополнительные параметры" можно выбрать политику кластера, чтобы указать, какие конфигурации кластера разрешены.
    • Кроме того, в разделе "Дополнительные параметры" можно настроить режим доступа к каталогу Unity для дополнительной безопасности. Доступные типы режима доступа:
      • Режим доступа к одному пользователю предназначен для сценариев, в которых каждый кластер используется одним пользователем. Это гарантирует, что доступ к данным в кластере ограничен только этим пользователем. Этот режим полезен для задач, требующих изоляции и обработки отдельных данных.
      • Режим общего доступа в этом режиме несколько пользователей могут получить доступ к одному кластеру. Он объединяет управление данными каталога Unity с устаревшими списками управления доступом к таблицам (ACL). Этот режим обеспечивает совместный доступ к данным при сохранении протоколов управления и безопасности. Однако он имеет определенные ограничения, такие как отсутствие поддержки машинного обучения Databricks Runtime, заданий отправки Spark и определенных API Spark и определяемых пользователем пользователей.
      • Этот режим доступа не отключает взаимодействие с каталогом Unity, то есть кластеры не имеют доступа к данным, управляемым каталогом Unity. Этот режим полезен для рабочих нагрузок, для которых не требуются функции управления каталогом Unity.

    Снимок экрана: поддержка идентификатора политики и каталога Unity на вкладке

Настройка параметров

Выбрав вкладку "Параметры" , можно выбрать один из 3 параметров, тип которых azure Databricks требуется оркестровать.

Снимок экрана: вкладка

Оркестрация типа Notebook в действии Azure Databricks:

  1. На вкладке "Параметры" можно выбрать переключатель "Записная книжка", чтобы запустить записную книжку. Для выполнения задания необходимо указать путь к записной книжке, который будет выполняться в Azure Databricks, необязательные базовые параметры, передаваемые в записную книжку, и все дополнительные библиотеки, установленные в кластере.

    Снимок экрана: тип записных книжек действия Azure Databricks.

Оркестрация типа Jar в действии Azure Databricks:

  1. На вкладке "Параметры" можно выбрать переключатель Jar для запуска jar-файла. Для выполнения задания необходимо указать имя класса, выполняемого в Azure Databricks, необязательные базовые параметры, передаваемые jar-файлу, и все дополнительные библиотеки, установленные в кластере.

    Снимок экрана: тип Jar для действия Azure Databricks.

Оркестрация типа Python в действии Azure Databricks:

  1. На вкладке "Параметры" можно выбрать переключатель Python для запуска файла Python . Для выполнения задания необходимо указать путь в Azure Databricks к исполняемому файлу Python, необязательным базовым параметрам и любым дополнительным библиотекам, установленным в кластере.

    Снимок экрана: тип Python действия Azure Databricks.

Поддерживаемые библиотеки для действия Azure Databricks

В приведенном выше определении действия Databricks можно указать следующие типы библиотек: jar, яйцо, whl, maven, pypi, cran.

Дополнительные сведения см. в документации Databricks по типам библиотек.

Передача параметров между действием Azure Databricks и конвейерами

Вы можете передавать параметры в записные книжки с помощью свойства baseParameters в действии Databricks.

Иногда может требоваться передать определенные значения из записной книжки обратно в службу для потока управления (условные проверки) в службе или для использования нисходящими действиями (ограничение размера — 2 МБ).

  1. Например, в записной книжке можно вызвать dbutils.notebook.exit("returnValue") и соответствующий "returnValue" будет возвращен в службу.

  2. Выходные данные в службе можно использовать с помощью выражения, такого как @{activity('databricks activity name').output.runOutput}.

Снимок экрана: передача базовых параметров в действии Azure Databricks.

Сохранение и запуск или планирование конвейера

После настройки других действий, необходимых для конвейера, перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.

Снимок экрана: сохранение и запуск конвейера.

Мониторинг запусков конвейера