Transformace dat ze zdroje SAP ODP pomocí konektoru SAP CDC ve službě Azure Data Factory nebo Azure Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje, jak pomocí mapování toku dat transformovat data ze zdroje SAP ODP pomocí konektoru SAP CDC. Další informace najdete v úvodním článku pro Azure Data Factory nebo Azure Synapse Analytics. Úvod k transformaci dat pomocí Azure Data Factory a Azure Synapse Analytics najdete v mapování toku dat nebo kurz mapování toku dat.
Tip
Pokud se chcete dozvědět o celkové podpoře scénáře integrace dat SAP, přečtěte si článek o integraci dat SAP pomocí dokumentu white paper o službě Azure Data Factory s podrobným úvodem ke každému konektoru SAP, porovnání a doprovodným materiálům.
Podporované funkce
Tento konektor SAP CDC je podporovaný pro následující funkce:
Podporované funkce | IR |
---|---|
Mapování toku dat (zdroj/-) | (1), (2) |
(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime
Tento konektor SAP CDC používá architekturu SAP ODP k extrakci dat ze zdrojových systémů SAP. Úvod k architektuře řešení najdete v tématu Úvod a architektura pro zachytávání dat SAP (CDC) ve znalostním centru SAP.
Architektura SAP ODP je obsažena ve všech aktuálních systémech založených na SAP NetWeaver, včetně SYSTÉMŮ SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SAP LT Replication Server (SLT). Požadavky a minimální požadované verze najdete v tématu Požadavky a konfigurace.
Konektor SAP CDC podporuje základní ověřování nebo SNC (Secure Network Communications), pokud je nakonfigurovaný SNC.
Aktuální omezení
Tady jsou aktuální omezení konektoru SAP CDC ve službě Data Factory:
- V Data Factory nemůžete resetovat ani odstraňovat předplatná ODQ (pro tento účel použijte transakční ODQMON v připojeném systému SAP).
- S řešením nemůžete používat hierarchie SAP.
Požadavky
Pokud chcete použít tento konektor SAP CDC, projděte si požadavky a nastavení konektoru SAP CDC.
Začínáme
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manageru
Vytvoření propojené služby pro konektor SAP CDC pomocí uživatelského rozhraní
Postupujte podle kroků popsaných v části Příprava propojené služby SAP CDC a vytvořte propojenou službu pro konektor SAP CDC v uživatelském rozhraní webu Azure Portal.
Vlastnosti datové sady
Pokud chcete připravit datovou sadu SAP CDC, postupujte podle pokynů k přípravě zdrojové datové sady SAP CDC.
Transformace dat pomocí konektoru SAP CDC
Nezpracovaný kanál změn SAP ODP je obtížné interpretovat a správně ho aktualizovat na jímku může být náročné. Například technické atributy přidružené k jednotlivým řádkům (například ODQ_CHANGEMODE) musí být srozumitelné, aby se změny použily na jímku správně. Extrakce dat o změnách z odp může také obsahovat několik změn stejného klíče (například stejnou prodejní objednávku). Proto je důležité respektovat pořadí změn a současně optimalizovat výkon zpracováním změn paralelně. Kromě toho správa kanálu pro zachytávání dat změn také vyžaduje sledování stavu, například za účelem poskytování integrovaných mechanismů pro obnovení chyb. Mapování toků dat datové továrny Azure se postará o všechny tyto aspekty. Připojení SAP CDC je proto součástí prostředí mapování toku dat. Uživatelé se tak mohou soustředit na požadovanou logiku transformace, aniž by museli obtěžovat technické podrobnosti extrakce dat.
Začněte vytvořením kanálu s mapováním toku dat.
Dále zadejte přípravnou propojenou službu a pracovní složku v Azure Data Lake Gen2, která slouží jako přechodné úložiště pro data extrahovaná ze SAP.
Poznámka:
- Přípravná propojená služba nemůže používat místní prostředí Integration Runtime.
- Pracovní složka by měla být považována za interní úložiště konektoru SAP CDC. V případě dalších optimalizací modulu runtime SAP CDC se můžou změnit podrobnosti implementace, jako je formát souboru používaný pro přípravná data. Proto nedoporučujeme používat pracovní složku pro jiné účely, například jako zdroj pro jiné aktivity kopírování nebo mapování toků dat.
Klíč kontrolního bodu používá modul runtime SAP CDC k ukládání informací o stavu procesu zachytávání dat změn. To například umožňuje, aby se toky dat mapování SAP CDC automaticky zotavily z chybových situací nebo věděly, jestli už byl zaveden proces zachytávání dat změn pro daný tok dat. Proto je důležité pro každý zdroj použít jedinečný klíč kontrolního bodu. Jinak se informace o stavu jednoho zdroje přepíšou jiným zdrojem.
Poznámka:
- Aby nedocházelo ke konfliktům, ve výchozím nastavení se jako klíč kontrolního bodu vygeneruje jedinečné ID.
- Při použití parametrů pro využití stejného toku dat pro více zdrojů nezapomeňte parametrizovat klíč kontrolního bodu s jedinečnými hodnotami na zdroj.
- Vlastnost Klíč kontrolního bodu se nezobrazuje, pokud je režim spuštění ve zdroji SAP CDC nastavený na Úplné při každém spuštění (viz další část), protože v tomto případě není vytvořen žádný proces zachytávání dat změn.
Parametrizované klíče kontrolních bodů
Klíče kontrolních bodů jsou potřeba ke správě stavu procesů zachytávání dat změn. Pro efektivní správu můžete parametrizovat klíč kontrolního bodu tak, aby umožňoval připojení k různým zdrojům. Tady je postup implementace parametrizovaného klíče kontrolního bodu:
Vytvořte globální parametr pro uložení klíče kontrolního bodu na úrovni kanálu, abyste zajistili konzistenci napříč prováděními:
"parameters": { "checkpointKey": { "type": "string", "defaultValue": "YourStaticCheckpointKey" } }
Klíč kontrolního bodu nastavte programově tak, aby vyvolal kanál s požadovanou hodnotou při každém spuštění. Tady je příklad volání REST pomocí parametrizovaného klíče kontrolního bodu:
PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.DataFactory/factories/{factoryName}/pipelines/{pipelineName}?api-version=2018-06-01 Content-Type: application/json { "properties": { "activities": [ // Your activities here ], "parameters": { "checkpointKey": { "type": "String", "defaultValue": "YourStaticCheckpointKey" } } } }
Podrobnější informace najdete v pokročilých tématech pro konektor SAP CDC.
Mapování vlastností toku dat
Pokud chcete vytvořit tok dat mapování pomocí konektoru SAP CDC jako zdroje, proveďte následující kroky:
V ADF Studiu přejděte do části Toky dat v centru Autor, vyberte tlačítko ... a rozbalte nabídku Akce toku dat a vyberte položku Nový tok dat. Zapněte režim ladění pomocí tlačítka ladění toku dat na horním panelu plátna toku dat.
V editoru mapování toku dat vyberte Přidat zdroj.
Na kartě Nastavení zdroje vyberte připravenou datovou sadu SAP CDC nebo vyberte tlačítko Nový a vytvořte novou. Alternativně můžete také vybrat vloženou položku ve vlastnosti Typ zdroje a pokračovat bez definování explicitní datové sady.
Na kartě Možnosti Zdroj vyberte možnost Úplná při každém spuštění , pokud chcete načíst úplné snímky při každém spuštění mapování toku dat. Při prvním spuštění vyberte Úplné a pak přírůstkové , pokud se chcete přihlásit k odběru kanálu změn ze zdrojového systému SAP, včetně počátečního úplného snímku dat. V tomto případě první spuštění kanálu provede rozdílovou inicializaci, což znamená, že ve zdrojovém systému vytvoří odběr odp delta a vrátí aktuální úplný snímek dat. Následující spuštění kanálu vrací pouze přírůstkové změny od předchozího spuštění. Přírůstkové změny možnosti vytvoří pouze rozdílové předplatné ODP bez vrácení počátečního úplného snímku dat při prvním spuštění. Další spuštění vrací přírůstkové změny od předchozího spuštění. Obě možnosti přírůstkového načtení vyžadují zadání klíčů zdrojového objektu ODP ve vlastnosti Klíčové sloupce .
Na kartách Projekce, Optimalizace a Kontrola postupujte podle mapování toku dat.
Optimalizace výkonu úplného nebo počátečního zatížení s dělením zdrojů
Pokud je režim spuštění nastaven na Úplné při každém spuštění nebo Úplné při prvním spuštění nabídne karta Optimalizace výběr a typ dělení s názvem Zdroj. Tato možnost umožňuje zadat více podmínek oddílu (tj. filtru) pro vytvoření bloku velkých zdrojových dat do několika menších částí. Pro každý oddíl konektor SAP CDC aktivuje samostatný proces extrakce ve zdrojovém systému SAP.
Pokud jsou oddíly stejně velké, může zdrojové dělení lineárně zvýšit propustnost extrakce dat. K dosažení takových vylepšení výkonu se ve zdrojovém systému SAP vyžadují dostatečné prostředky, virtuální počítač hostující místní prostředí Integration Runtime a prostředí Azure Integration Runtime.