你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Delphix 和 Azure 数据工厂为 SAP 应用程序实现数据加扰

Azure 数据工厂
Azure Synapse Analytics

在许多企业中 SAP 是最关键的应用程序,也是各种数据的主要记录系统。 公司必须能够以经济高效、可缩放且灵活的方式利用 SAP 及其上游/下游应用程序的见解数据进行分析。 同时,公司还需要确保这些数据符合各种法规。

体系结构

以下体系结构概述了如何在 Azure 数据工厂/Azure Synapse 管道中使用 Delphix CC 识别和掩码敏感数据。

关系图显示使用 Delphix 加扰 SAP 数据以用于 Azure 数据工厂所需的环境体系结构。

下载此体系结构的 Visio 文件

什么是 Azure 数据工厂?

Azure 数据工厂是一项完全托管的无服务器数据集成服务。 它提供了丰富的视觉体验,可将数据源与 100 多个内置、免维护的连接器集成,而无需额外成本。 在直观的环境中以无代码的方式轻松构建提取、转换和加载 (ETL) 以及提取、加载和转换 (ELT) 流程,或者也可以编写你自己的代码。 然后,将集成数据交付给 Azure Synapse Analytics,通过业务见解释放数据的力量。

什么是 Delphix 持续合规性 (Delphix CC)?

Delphix 持续合规性 (Delphix CC) 可识别敏感信息并自动掩码/加扰数据。 它提供了一种快速、自动化、API 驱动的方式,可在组织需要的位置提供安全数据。

Delphix CC 和 Azure 数据工厂如何解决自动处理合规数据的问题?

安全数据的移动对所有组织都是一个挑战。 Delphix 可轻松实现一致的数据合规性,而 Azure 数据工厂可以无缝连接和移动数据。 Delphix CC 和 Azure 数据工厂将行业领先的合规性和自动化产品/服务相结合,使每个人都可以轻松地按需交付合规数据。

通过使用 Azure 数据工厂提供的数据源连接器,我们创建了一个 ETL 管道,可帮助最终用户自动执行以下步骤:

  1. 从记录系统 (SAP HANA) 读取数据并将其写入 Azure 存储上的 CSV 文件。
  2. 对文件执行 Delphix 屏蔽作业,以将敏感数据元素替换为类似但虚构的值。
  3. 将合规数据加载到 Azure Synapse Analytics。

数据流

数据流经方案的情形如下所示:

  1. Azure 数据工厂使用复制数据活动将数据从源数据存储 (SAP HANA) 提取到 Azure 文件中的容器。 此容器称为源数据容器,数据采用 CSV 格式。 要使用 SAP HANA 连接器,Microsoft 建议使用自承载集成运行时。 有关详细信息,请参阅此操作指南
  2. 数据工厂启动一个迭代器(ForEach 活动),该迭代器循环访问 Delphix 中配置的掩码作业列表。 这些屏蔽作业将预先配置,并屏蔽源数据容器中存在的敏感数据。
  3. 对于列表中的每个作业,“启动屏蔽”活动通过调用 Delphix CC 引擎上的 REST API 终结点来验证并启动屏蔽作业。
  4. Delphix CC 引擎从源数据容器中读取数据并运行屏蔽过程。
  5. 在此屏蔽过程中,Delphix 屏蔽内存中的数据并将生成的屏蔽数据写回目标 Azure 文件容器(称为“目标数据容器”)。
  6. 数据工厂现在启动第二个迭代器(ForEach 活动)来监视执行。
  7. 对于已启动的每个执行(屏蔽作业),“检查状态”活动会检查屏蔽结果。
  8. 成功完成所有掩码作业后,数据工厂将掩码数据从目标数据容器加载到 Azure Synapse Analytics。

组件

  • Azure 数据工厂是提取、转换和加载 (ETL) 服务,用于横向扩展无服务器数据集成和数据转换。 它提供了无代码的 UI,以用于直观创作和集中式监视与管理。
  • Azure 存储存储从源数据存储中提取的数据以及将加载到目标数据存储中的掩码数据。
  • 资源组是 Azure 资源的逻辑容器 资源组在 Azure 控制台中组织与此项目相关的所有内容。
  • 必须设置自承载集成运行时,并且必须安装 SAP HANA ODBC 驱动程序,然后才能从 SAP HANA 提取数据。
  • 可选:Azure 虚拟网络为不属于 Azure Synapse 工作区的 Azure 资源提供专用网络功能。 它允许管理资源之间的访问、安全性和路由。

可能的用例

  • 自动将合规数据从 SAP 应用程序(此处描述的体系结构特定于使用 HANA 后端的 SAP 应用程序)移动到 Microsoft Synapse,以便分析师能够在关注成本的同时以快速和可缩放的方式获取测试所需的数据。 在几分钟内执行数百万个加扰操作。
  • 自动将详尽的 Delphix 算法框架用于解决数据的任何法规要求(例如遵守一般数据保护条例 (GDPR)、CCPA、LGPD 和 HIPAA)。
  • 在数据源中一致地掩码/加扰数据,同时维护集成应用程序测试的引用完整性。 例如,姓名 George 必须始终对 Elliot 掩码,或者给定的身份证号 (SSN) 必须始终对同一虚构 SSN 掩码,无论 George 及其 SSN 是否出现在 SAP、Oracle、Salesforce 或任何其他应用程序中。
  • 以不增加训练周期且不影响模型或预测准确性的方式掩码/加扰数据。
  • 只需更改源连接器即可配置同时适用于本地和云的解决方案。 例如,可以从本地 SAP 应用程序拉取数据、将数据复制到云中,并确保在加载到 Synapse 之前合规。

主要优点

  • 现实且确定性的掩码/加扰,可保持引用完整性
  • 抢先识别最常见 SAP 表和模块的敏感数据
  • 执行原生云
  • 基于模板的部署
  • 可缩放
  • 成本高昂的内存中 HANA HW 的低成本替代方案

入门

  1. 在 Azure 上部署 Delphix CC 引擎
  2. 在 Azure 数据工厂中,使用 Delphix 部署数据掩码,并使用 Delphix 模板部署敏感数据发现。 注意:这些模板适用于 Azure Synapse Analytics 管道和 Azure 数据工厂管道。
  3. 按照此操作指南中的详细说明设置自承载集成运行时以从 SAP HANA 提取数据。
  4. 在“复制数据”组件的“提取”步骤中将所需源配置为 SAP HANA,在“加载”步骤中将 Synapse 配置为所需目标。 在 Web 活动组件中,输入 Delphix 应用程序 IP 地址/主机名和凭据,以使用 Delphix CC API 进行身份验证。
  5. 使用 Delphix Azure 数据工厂模板运行敏感数据发现以进行初始设置,并在需要预先识别敏感数据的任何时候运行(例如,如果发生架构更改)。 该模板为 Delphix CC 提供了扫描可能包含敏感数据的列所需的初始配置。 还可以将其与用于 SAP 的 Delphix Compliance Accelerator、预标识的敏感字段和掩码算法结合使用,以保护核心 SAP 表(例如财务、人力资源和物流模块)中的数据。 如果对此选项感兴趣,请联系 Delphix。
  6. 创建一个规则集,指明要分析的数据集合。 在 Delphix UI 中运行分析作业,以识别和分类该规则集的敏感字段并分配适当的屏蔽算法。
  7. 运行模板。 完成后,即可在 Azure Synapse Analytics 中拥有掩码数据(用于 SAP 的 Delphix Compliance Accelerator 为热门表/模块预标识的数据)。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负荷质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

Delphix CC 不可逆地用保留完整功能的真实数据屏蔽数据值,从而能够开发更高质量的代码。 在可用于将数据转换为用户规范的丰富算法中,Delphix CC 拥有一项专利算法,可故意产生数据冲突,同时允许使用在已掩码的数据集上运行的潜在验证例程所需的特定值对数据进行加盐处理。 从零信任的角度来看,运算符无需访问实际数据即可对其进行屏蔽。 此外,可以通过 API 自动执行将屏蔽数据从 A 点到点 B 的整个传送过程。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

通过调整 Azure 定价计算器上的值,可查看特定要求对成本的影响。

Azure Synapse:可以独立缩放计算和存储级别。 计算资源按小时计费,可按需缩放或暂停这些资源。 存储资源按 TB 计费,因此,引入的数据越多,费用就越高。

数据工厂:成本基于工作负载中执行的读/写操作、监视操作和业务流程活动的数量。 每增加一个数据流和每增加一个单位的处理数据量,数据工厂的费用都会增加。

Delphix CC:与市场上的其他数据合规产品不同,屏蔽不需要被屏蔽环境的完整物理副本。 由于设置和维护基础结构的时间、基础结构本身的成本以及将物理数据重复加载到掩码环境中所花费的时间,环境冗余的成本可能很高。

性能效率

性能效率是指工作负荷能够以高效的方式扩展以满足用户对它的需求。 有关详细信息,请参阅性能效率要素概述

Delphix CC 具有水平和垂直可缩放性。 转换发生在内存中并且可以并行化。 该产品既可以作为服务运行,也可以作为多节点设备运行,根据应用程序的不同,允许各种规模的解决方案体系结构。 Delphix 引领了提供大型掩码数据集的市场。

可以增加屏蔽流以使多个 CPU 核心参与单个作业。 (可在此处找到配置建议以及如何更改内存分配的信息:https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/

为获得大于 1 TB 数据集的最佳性能,Delphix 超大规模屏蔽将大型复杂数据集分解为多个模块,然后跨多个持续合规性引擎协调屏蔽作业。

供稿人

本文由以下贡献者撰写。

主要作者:

其他参与者:

后续步骤