Запись измененных данных с эволюцией схемы от База данных SQL Azure до приемника Delta с помощью ресурса отслеживания измененных данных

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье используется пользовательский интерфейс Фабрика данных Azure для создания ресурса записи измененных данных (CDC). Ресурс выбирает измененные данные из источника База данных SQL Azure и добавляет его в Delta Lake, хранящиеся в Azure Data Lake Storage 2-го поколения, в режиме реального времени. Это действие демонстрирует поддержку эволюции схемы с помощью ресурса CDC между источником и приемником.

Вы узнаете, как выполнять следующие задачи:

  • Создайте ресурс CDC.
  • Внесите изменения в динамическую схему в исходную таблицу.
  • Проверьте изменения схемы в целевом приемнике Delta.

Вы можете изменить и развернуть шаблон конфигурации в этой статье.

Необходимые компоненты

Прежде чем начать процедуры в этой статье, убедитесь, что у вас есть следующие ресурсы:

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись Azure.
  • База данных SQL. Вы используете База данных SQL Azure в качестве исходного хранилища данных. Если у вас нет базы данных SQL, создайте ее в портал Azure.
  • Учетная запись хранения. Вы используете Delta Lake, хранящиеся в Azure Data Lake Storage 2-го поколения в качестве целевого хранилища данных. Если у вас нет учетной записи хранения, ознакомьтесь с инструкциями по созданию учетной записи хранения.

Создание артефакта CDC

  1. Перейдите в область "Автор" в фабрике данных. Под конвейерами появится новый артефакт верхнего уровня с именем "Запись измененных данных" (предварительная версия).

    Снимок экрана: новый артефакт верхнего уровня для отслеживания измененных данных на панели

  2. Наведите указатель мыши на запись измененных данных (предварительная версия), пока не появится три точки. Затем нажмите кнопку "Изменить запись данных" (предварительная версия).

    Снимок экрана: кнопка для действий отслеживания измененных данных, отображаемых над новым артефактом верхнего уровня.

  3. Выберите new CDC (preview). На этом шаге откроется всплывающее меню, чтобы начать интерактивный процесс.

    Снимок экрана: список действий отслеживания измененных данных.

  4. Вам будет предложено указать имя ресурса CDC. По умолчанию имя — adfcdc с числом, которое увеличивается на 1. Вы можете заменить это имя по умолчанию на выбранное имя.

    Снимок экрана: текстовое поле для обновления имени ресурса.

  5. Используйте раскрывающийся список, чтобы выбрать источник данных. В этой статье выберите База данных SQL Azure.

    Снимок экрана: всплывающее меню интерактивного процесса с параметрами источника в раскрывающемся списке.

  6. Вам будет предложено выбрать связанную службу. Создайте связанную службу или выберите существующую.

    Снимок экрана: поле для выбора или создания связанной службы.

  7. После выбора связанной службы вам будет предложено выбрать исходные таблицы. Установите флажки для выбора исходных таблиц, а затем выберите значение добавочного столбца с помощью раскрывающегося списка.

    Снимок экрана: выбор исходной таблицы и добавочного столбца.

    В области перечислены только таблицы, которые поддерживают типы данных добавочного столбца.

    Примечание.

    Чтобы включить развитие схемы CDC в источнике База данных SQL Azure, выберите таблицы на основе столбцов подложки, а не таблиц, которые включены в собственном коде CDC SQL.

  8. Выбрав исходные таблицы, нажмите кнопку "Продолжить ", чтобы задать целевой объект данных.

    Снимок экрана: кнопка

  9. Выберите значение типа target с помощью раскрывающегося списка. В этой статье выберите Delta.

    Снимок экрана: раскрывающееся меню всех целевых типов данных.

  10. Вам будет предложено выбрать связанную службу. Создайте связанную службу или выберите существующую.

    Снимок экрана: поле для выбора или создания связанной службы с целевым объектом данных.

  11. Выберите целевую папку данных. Можно использовать следующее:

    • Кнопка "Обзор" в разделе "Целевой базовый путь", которая помогает автоматически заполнять путь обзора для всех новых таблиц, выбранных для источника.
    • Кнопка "Обзор " за пределами, чтобы выбрать путь к папке по отдельности.

    Снимок экрана: значок папки для поиска пути к папке.

  12. Выбрав путь к папке, нажмите кнопку "Продолжить ".

    Снимок экрана: кнопка

  13. Появится новая вкладка для записи измененных данных. Эта вкладка — это студия CDC, где можно настроить новый ресурс.

    Снимок экрана: студия отслеживания измененных данных.

    Новое сопоставление создается автоматически. Вы можете обновить выбор исходной таблицы и целевой таблицы для сопоставления с помощью раскрывающихся списков.

    Снимок экрана: сопоставление источника и целевого объекта в студии отслеживания измененных данных.

  14. После выбора таблиц их столбцы сопоставляются по умолчанию с включенным переключателем автоматической карты . Автоматическая карта автоматически сопоставляет столбцы по имени в приемнике, выбирает новые изменения столбцов при изменении исходной схемы и передает эти сведения поддерживаемым типам приемников.

    Снимок экрана: переключатель для автоматического сопоставления включен.

    Примечание.

    Эволюция схемы работает только в том случае, если включен переключатель автоматической карты . Сведения о том, как изменять сопоставления столбцов или включать преобразования, см. в статье "Запись измененных данных" с помощью ресурса отслеживания измененных данных.

  15. Выберите ссылку "Ключи", а затем выберите столбец "Ключи", который будет использоваться для отслеживания операций удаления.

    Снимок экрана: ссылка для включения выбора столбца

    Снимок экрана: выбор столбца

  16. После завершения сопоставлений задайте задержку CDC с помощью кнопки "Задать задержку ".

    Снимок экрана: кнопка

  17. Выберите задержку CDC и нажмите кнопку "Применить ", чтобы внести изменения.

    По умолчанию задержка имеет значение 15 минут. В примере в этой статье используется параметр реального времени для задержки. Задержка в режиме реального времени постоянно выбирает изменения в исходных данных в интервалах менее 1 минуты.

    Для других задержек (например, при выборе 15 минут) запись измененных данных будет обрабатывать исходные данные и получать измененные данные с момента последнего обработки.

    Снимок экрана: параметры настройки задержки.

  18. После завершения настройки CDC выберите "Опубликовать все ", чтобы опубликовать изменения.

    Снимок экрана: кнопка публикации в верхней части холста.

    Примечание.

    Если вы не публикуете изменения, вы не сможете запустить ресурс CDC. Кнопка "Пуск" на следующем шаге будет недоступна.

  19. Нажмите кнопку "Пуск" , чтобы начать выполнение записи измененных данных.

    Снимок экрана: кнопка

Теперь, когда выполняется запись измененных данных, вы можете:

  • Используйте страницу мониторинга, чтобы узнать, сколько изменений (вставка, обновление или удаление) было прочитано и записано вместе с другими диагностическими сведениями.

    Снимок экрана: страница мониторинга выбранного отслеживания измененных данных.

    Снимок экрана: страница мониторинга выбранного отслеживания измененных данных с подробным представлением.

  • Убедитесь, что измененные данные прибыли в Delta Lake, хранящиеся в Azure Data Lake Storage 2-го поколения, в разностном формате.

    Снимок экрана: целевая папка Delta.

  • Проверьте схему поступающих данных об изменениях.

    Снимок экрана: разностный файл.

Изменение динамического уровня схемы в исходных таблицах

  1. Добавьте новый столбец PersonalEmail в исходную таблицу с помощью ALTER TABLE инструкции T-SQL, как показано в следующем примере.

    Снимок экрана: команда ALTER в Azure Data Studio.

  2. Убедитесь, что новый столбец PersonalEmail отображается в существующей таблице.

    Снимок экрана: новый макет таблицы с столбцом, добавленным для личного сообщения электронной почты.

Проверка изменений схемы в приемнике Delta

Убедитесь, что новый столбец PersonalEmail отображается в приемнике Delta. Теперь вы знаете, что изменения данных с изменениями схемы прибыли в целевой объект.

Снимок экрана: разностный файл с изменением схемы.