Добавление назначения Lakehouse в поток событий

В этой статье показано, как добавить lakehouse в качестве назначения в поток событий в потоках событий Microsoft Fabric.

Примечание.

Если вы хотите использовать расширенные возможности, которые находятся в предварительной версии, выберите расширенные возможности в верхней части. В противном случае выберите стандартные возможности. Сведения о расширенных возможностях, которые находятся в предварительной версии, см. в разделе "Общие сведения о потоках событий Fabric".

Внимание

Существует принудительное применение схемы для записи данных в целевую таблицу Lakehouse. Все новые записи в таблицу должны быть совместимы с схемой целевой таблицы во время записи, обеспечивая качество данных.

При записи выходных данных в новую разностную таблицу схема таблицы создается на основе первой записи. Все записи выходных данных проецируются на схему существующей таблицы.

Если входящие данные содержат столбцы, не имеющиеся в существующей схеме таблицы, дополнительные столбцы не включаются в данные, записанные в таблицу. Аналогичным образом, если входящие данные отсутствуют в существующей схеме таблицы, отсутствующие столбцы записываются в таблицу со значениями null.

Необходимые компоненты

  • Доступ к рабочей области Fabric premium, в которой находится ваш поток событий с разрешениями участника или более высокого уровня.
  • Доступ к рабочей области premium, в которой находится lakehouse с разрешениями участника или более высокого уровня.

Примечание.

Максимальное количество источников и назначений для одного потока событий — 11.

Добавление lakehouse в качестве назначения

Чтобы добавить назначение Lakehouse в поток событий по умолчанию или производного события, выполните следующие действия.

  1. В режиме редактирования для потока событий выберите "Добавить назначение " на ленте и выберите Lakehouse из раскрывающегося списка.

    Снимок экрана: раскрывающийся список

  2. Подключение узла Lakehouse на узел потока или оператор.

  3. На экране конфигурации Lakehouse выполните следующие сведения:

    1. Введите имя назначения.
    2. Выберите рабочую область , содержащую озеро.
    3. Выберите существующий Lakehouse из указанной рабочей области.
    4. Выберите существующую таблицу Delta или создайте новую для получения данных.
    5. Выберите формат входных данных, отправляемый в lakehouse. Поддерживаемые форматы данных : JSON, Avro и CSV (с заголовком).

    Снимок экрана: верхняя часть экрана конфигурации Lakehouse.

  4. Выберите Дополнительно.

  5. Два режима приема доступны для назначения lakehouse. В зависимости от сценария настройте эти режимы, чтобы оптимизировать потоки событий Fabric, записываемые в lakehouse.

    • Минимальные строки — это минимальное количество строк, которые лейкхаус выполняет прием в одном файле. Минимальное значение — 1 строка, а максимальное — 2 миллиона строк на файл. Чем меньше минимальное число строк, тем больше файлов lakehouse создает во время приема.

    • Максимальная длительность — это максимальная длительность приема одного файла. Минимальное значение составляет 1 минуту, а максимальное — 2 часа. Чем дольше длительность, тем больше строк в файле приемываются.

    Снимок экрана: раздел

  6. Выберите Сохранить.

  7. Чтобы реализовать только что добавленное назначение lakehouse, нажмите кнопку "Опубликовать".

    Снимок экрана: место назначения stream и lakehouse в режиме редактирования с выделенной кнопкой

После выполнения этих действий назначение Lakehouse доступно для визуализации в режиме реального времени. В области сведений можно выбрать таблицу "Оптимизация" в ярлыке записной книжки, чтобы запустить задание Apache Spark в записной книжке, которое объединяет небольшие потоковые файлы в целевой таблице Lakehouse.

Снимок экрана: назначение Lakehouse и кнопка оптимизации таблицы в режиме реального времени.

Сведения о добавлении других назначений в поток событий см. в следующих статьях:

Необходимые компоненты

Перед началом работы необходимо выполнить следующие предварительные требования:

  • Получите доступ к рабочей области premium с разрешениями участника или выше, где находится ваш поток событий.
  • Получите доступ к рабочей области premium с разрешениями участника или более поздних версий, где находится lakehouse.

Примечание.

Максимальное количество источников и назначений для одного потока событий — 11.

Добавление lakehouse в качестве назначения

Если у вас есть lakehouse, созданный в рабочей области, выполните следующие действия, чтобы добавить lakehouse в поток событий в качестве места назначения:

  1. Выберите новое назначение на ленте или "+" на холсте основного редактора, а затем выберите Lakehouse. Откроется экран конфигурации назначения Lakehouse.

  2. Введите имя назначения события и заполните сведения о вашем lakehouse.

    Снимок экрана: экран конфигурации назначения Lakehouse.

    1. Lakehouse: выберите существующий lakehouse из указанной рабочей области.

    2. Разностная таблица: выберите существующую разностную таблицу или создайте новую для получения данных.

      Примечание.

      При записи данных в таблицу Lakehouse применяется принудительное применение схемы. Это означает, что все новые записи в таблицу должны быть совместимы со схемой целевой таблицы во время записи, обеспечивая качество данных.

      Все записи выходных данных проецируются на схему существующей таблицы. При записи выходных данных в новую разностную таблицу схема таблицы создается на основе первой записи. Если входящие данные имеют дополнительный столбец по сравнению с существующей схемой таблицы, она записывается в таблицу без включения дополнительного столбца. И наоборот, если входящие данные отсутствуют в столбце по сравнению с существующей схемой таблицы, она записывается в таблицу со значением столбца, равным NULL.

    3. Формат входных данных: выберите формат данных (входных данных), отправляемых в lakehouse.

      Примечание.

      Поддерживаемые форматы входных событий : JSON, Avro и CSV (с заголовком).

    4. Обработка событий. Вы можете использовать редактор обработки событий, чтобы указать способ обработки данных перед отправкой в lakehouse. Выберите "Открыть обработчик событий" , чтобы открыть редактор обработки событий. Дополнительные сведения об обработке в режиме реального времени с помощью обработчика событий см. в разделе "Обработка данных о событиях с помощью редактора обработчика событий". Когда вы закончите работу с редактором, нажмите кнопку "Готово ", чтобы вернуться на экран конфигурации назначения Lakehouse .

      Снимок экрана: редактор обработчика событий.

  3. Два режима приема доступны для назначения lakehouse. Выберите один из этих режимов, чтобы оптимизировать способ записи потоков событий Fabric в Lakehouse на основе вашего сценария.

    1. Строки для каждого файла — минимальное количество строк, которые лейкхаус приема в одном файле. Чем меньше минимальное количество строк, тем больше файлов Lakehouse создает во время приема. Минимальное значение — 1 строка. Максимальное значение — 2M строк на файл.

    2. Длительность — максимальная длительность приема одного файла. Чем дольше продолжительность, тем больше строк приема в файле. Минимальное значение составляет 1 минуту, а максимальное — 2 часа.

      Снимок экрана: режимы приема.

  4. Нажмите кнопку "Добавить", чтобы добавить место назначения Lakehouse.

  5. Ярлык оптимизации таблицы доступен в месте назначения Lakehouse. Это решение упрощает запуск задания Spark в записной книжке, которая объединяет эти небольшие потоковые файлы в целевой таблице Lakehouse.

    Снимок экрана: параметры оптимизации таблицы.

  6. Место назначения lakehouse появляется на холсте с индикатором состояния спиннинга. Система занимает несколько минут, чтобы изменить состояние на "Активный".

    Снимок экрана: место назначения Lakehouse.

Управление назначением

Изменение и удаление: можно изменить или удалить назначение потока событий с помощью области навигации или холста.

При нажатии кнопки "Изменить" откроется область редактирования в правой части основного редактора. Вы можете изменить конфигурацию по желанию, включая логику преобразования событий с помощью редактора обработчика событий.

Снимок экрана: выбор параметров изменения и удаления для назначений на холсте.

Сведения о добавлении других назначений в поток событий см. в следующих статьях: