Обзор и архитектура возможностей SAP CDC

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Узнайте о возможностях отслеживания измененных данных SAP (CDC) в Фабрика данных Azure и о архитектуре.

Фабрика данных Azure — это платформа интеграции данных ETL и ELT, предоставляемая как услуга (PaaS). Для интеграции данных SAP Фабрика данных в настоящее время предлагает шесть соединителей общей доступности:

Снимок экрана: шесть соединителей общей доступности для систем SAP в Фабрике данных.

Потребности извлечения данных

Соединители SAP в Фабрике данных извлекают исходные данные SAP только пакетами. Каждый пакет обрабатывает существующие и новые данные одинаково. При извлечении данных в пакетном режиме изменения между существующими и новыми наборами данных не определяются. Этот тип режима извлечения не является оптимальным, если у вас есть большие наборы данных, такие как таблицы с миллионами или миллиардами записей, которые часто изменяются.

Для обеспечения актуальности копии данных SAP можно часто извлекать полный набор данных, но такой подход является дорогостоящим и неэффективным. Вы также можете использовать ограниченный обходной путь, связанный с извлечением в основном новых или обновленных записей вручную. В процессе, называемом подложкой, извлечение требует использования столбца метки времени, монотонно увеличивая значения и постоянно отслеживая наибольшее значение с момента последнего извлечения. Но в некоторых таблицах нет столбца, который можно использовать для нанесения водяных знаков. Этот процесс также не идентифицирует удаленную запись как изменение в наборе данных.

Возможности SAP CDC

Клиенты Майкрософт указывают, что им нужен соединитель, который может извлекать только различия между двумя наборами данных. В данных различия (или разность) — это изменение в наборе данных, которое является результатом обновления, вставки или удаления в наборе данных. Соединитель разностного извлечения использует функцию отслеживания измененных данных SAP (CDC), которая существует в большинстве систем SAP для определения разности в наборе данных. Возможности SAP CDC в фабрике данных используют платформу подготовки операционных данных SAP (ODP) для репликации разностной реплики в исходном наборе данных SAP.

В этой статье представлена высокоуровневая архитектура возможностей SAP CDC в Фабрика данных Azure. Дополнительные сведения о возможностях SAP CDC:

Использование возможностей SAP CDC

Соединитель SAP CDC является основой возможностей SAP CDC. Он может подключаться ко всем системам SAP, поддерживающим ODP, включая SAP ECC, SAP S/4HANA, SAP BW и SAP BW/4HANA. Это решение работает либо непосредственно на уровне приложения, либо косвенно через сервер SAP Landscape Transformation Replication Server (SLT), который используется в качестве прокси-сервера. Она не зависит от подложки для извлечения данных SAP полностью или добавочно. Данные, извлеченные соединителем SAP CDC, включают не только физические таблицы, но и логические объекты, созданные с помощью таблиц. Примером табличного объекта является представление SAP Advanced Business Application Programming (ABAP) Core Data Services (CDS).

Используйте соединитель SAP CDC с функциями фабрики данных, такими как сопоставление действий потока данных и переворачивающиеся триггеры окна для решения репликации SAP CDC с низкой задержкой в самоуправляемом конвейере.

Архитектура SAP CDC

Решение SAP CDC в Фабрике данных Azure является соединителем между SAP и Azure. На стороне SAP имеется соединитель SAP ODP, который вызывает API ODP через стандартные модули удаленного вызова функций (RFC) для извлечения необработанных полных и разностных данных SAP.

Сторона Azure включает поток данных сопоставления, который может преобразовывать и загружать данные SAP в любой приемник данных, поддерживаемый сопоставлением потоков данных. Некоторые из этих вариантов — это назначения хранилища, такие как Azure Data Lake Storage 2-го поколения или базы данных, такие как База данных SQL Azure или Azure Synapse Analytics. Действие потока данных сопоставления также может загружать результаты в Data Lake Storage 2-го поколения в разностном формате. Вы можете использовать функцию Delta Lake Time Travel для создания моментальных снимков данных SAP за определенный период. Вы можете часто запускать потоки данных конвейера и сопоставления с помощью триггера переворачивающегося окна фабрики данных для репликации данных SAP в Azure с низкой задержкой и без использования подложки.

Схема архитектуры решения SAP CDC.

Чтобы приступить к работе, создайте связанную службу SAP CDC, исходный набор данных SAP CDC и конвейер с действием потока данных сопоставления, в котором используется исходный набор данных SAP CDC. Для извлечения данных из SAP требуется локальная среда выполнения интеграции, которая устанавливается на локальном компьютере или на виртуальной машине, которая имеет линию видимости для исходных систем SAP или сервера SLT. Действие потока данных сопоставления выполняется в бессерверном кластере Azure Databricks или Apache Spark или в среде выполнения интеграции Azure. Промежуточное хранилище необходимо настроить в действии потока данных сопоставления, чтобы локальная среда выполнения интеграции работала без проблем с средой выполнения интеграции потока данных сопоставления.

Соединитель SAP CDC использует платформу SAP ODP для извлечения различных типов источников данных, в том числе:

  • Средства извлечения SAP, изначально созданные для извлечения данных из SAP ECC и их загрузки в SAP BW
  • Представления ABAP CDS — новый стандарт извлечения данных для SAP S/4HANA
  • Наборы данных InfoProviders и InfoObjects в SAP BW и SAP BW/4HANA
  • Таблицы приложений SAP при использовании сервера репликации SAP LT (SLT) в качестве прокси-сервера

В этом процессе источники данных SAP являются поставщиками. Поставщики работают в системах SAP для получения полных или добавочных данных в рабочей очереди изменений (ODQ). Источник потока данных сопоставления является подписчиком ODQ.

Схема архитектуры платформы ODP SAP, реализованной с помощью локальной среды выполнения интеграции.

Так как ODP полностью отделяет поставщиков от подписчиков, всю документацию SAP, которую предлагают конфигурации поставщиков, можно использовать и для Фабрики данных в качестве подписчика. Дополнительные сведения об ODP см. в статье Общие сведения о подготовке операционных данных.

Предварительные требования и настройка для решения CDC SAP