Delphix と Azure Data Factory を使用した SAP アプリケーションのデータ スクランブリング

Azure Data Factory
Azure Synapse Analytics

多くの企業において、SAP は最もミッション クリティカルなアプリケーションであり、幅広いデータを記録する主要なシステムです。 企業は、SAP とそのアップストリーム/ダウンストリーム アプリケーションの両方から、洞察に富んだデータをコスト効率よく、スケーラブルかつ柔軟性に優れた方法で分析に利用できなければなりません。 同時に、企業は、このデータが無数の規制に準拠していることを確認する必要もあります。

アーキテクチャ

以下のアーキテクチャは、Azure Data Factory/Azure Synapse パイプラインで Delphix CC を使用して、機密データを識別してマスクする方法を示しています。

Delphix を使用して SAP データをスクランブルし、Azure Data Factory で使用するために必要な環境のアーキテクチャを示す図。

このアーキテクチャの Visio ファイルをダウンロードします。

Azure Data Factory とは何ですか。

Azure Data Factory は、フル マネージドのサーバーレス データ統合サービスです。 データ ソースと 100 を超える組み込みのメンテナンス不要のコネクタを、追加コストなしで統合するための豊富なビジュアル エクスペリエンスを提供します。 ETL (抽出、変換、読み込み) と ELT (抽出、読み込み、変換) のプロセスを、直感的な環境でコードを記述しないで簡単に構築することも、独自のコードを記述することもできます。 その後、統合データを Azure Synapse Analytics に配信し、ビジネス分析情報によってデータの力を引き出します。

Delphix Continuous Compliance (Delphix CC) とは

Delphix Continuous Compliance (Delphix CC) は、機密情報を識別し、データ マスキング/スクランブリングを自動化します。 組織で必要な場所にセキュリティで保護されたデータを提供する、高速で自動化された API 主導の方法が提供されます。

Delphix CC と Azure Data Factory が準拠データの自動化を解決する方法

セキュリティで保護されたデータの移動は、すべての組織にとって課題です。 Delphix を使用すると、一貫性のあるデータ コンプライアンスを簡単に実現し、Azure Data Factory ではデータの接続と移動をシームレスに行うことができます。 Delphix CC と Azure Data Factory を一緒に使用することで、業界をリードするコンプライアンスと自動化のオファリングが組み合わされ、すべてのユーザーがオンデマンドで準拠データを簡単に配信できます。

Azure Data Factory によって提供されるデータ ソース コネクタを使用して、エンド ユーザーが次の手順を自動化できるようにする ETL パイプラインを作成しました。

  1. レコードのシステム (SAP HANA) からデータを読み取り、Azure Storage 上の CSV ファイルに書き込みます。
  2. ファイルに対して Delphix マスク ジョブを実行して、機密データ要素を類似した架空の値に置き換えます。
  3. 準拠データを Azure Synapse Analytics に読み込みます。

データフロー

このシナリオのデータ フローは次のとおりです。

  1. Azure Data Factory は、Copy Data アクティビティを使用して、ソース データストア (SAP HANA) から Azure File Storage 内のコンテナーにデータを抽出します。 このコンテナーはソース データ コンテナーと呼ばれ、データは CSV 形式です。 SAP HANA コネクタを使用するには、セルフホステッド統合ランタイムを使用することをお勧めします。 詳しくは、このハウツー ガイドをご覧ください。
  2. Data Factory は、Delphix 内で構成されたマスク ジョブの一覧をループ処理する反復子 (ForEach アクティビティ) を開始します。 これらのマスク ジョブは事前に構成され、ソース データ コンテナー内の機密データをマスクします。
  3. 一覧の各ジョブについて、Initiate Masking アクティビティは、Delphix CC エンジンで REST API エンドポイントを呼び出すことによって、マスク ジョブを認証および開始します。
  4. Delphix CC エンジンは、ソース データ コンテナーからデータを読み取り、マスク プロセスを実行します。
  5. このマスク プロセスで、Delphix はメモリ内のデータをマスクし、結果として得られるマスクされたデータをターゲットの Azure File Storage コンテナー (ターゲット データ コンテナーと呼ばれます) に書き戻します。
  6. Data Factory は、ここで実行を監視する 2 番目の反復子 (ForEach アクティビティ) を開始します。
  7. 開始された実行 (マスク ジョブ) ごとに、Check Status アクティビティによってマスクの結果が確認されます。
  8. すべてのマスク ジョブが正常に完了すると、Data Factory は、マスクされたデータをターゲット データ コンテナーから Azure Synapse Analytics に読み込みます。

コンポーネント

  • Azure Data Factory は、スケールアウト サーバーレス データ統合およびデータ変換のための、Azure のクラウド ETL (抽出、変換、読み込み) サービスです。 直感的な作成が可能なコード不要の UI を備えているほか、単一のペインで監視と管理を行えます。
  • Azure Storage には、ソース データストアから抽出されたデータと、ターゲット データストアに読み込まれるマスクされたデータが格納されます。
  • リソース グループは、Azure リソースの論理コンテナーです。 リソース グループは、このプロジェクトに関連するすべてのものを Azure コンソールで整理します。
  • セルフホステッド統合ランタイムを設定し、SAP HANA からのデータ抽出用に SAP HANA ODBC ドライバーをインストールする必要があります。
  • 省略可能: Azure Virtual Network は、Azure Synapse ワークスペースに属さない Azure リソースにプライベート ネットワーク機能を提供します。 これにより、リソース間のアクセス、セキュリティ、ルーティングを管理できます。

考えられるユース ケース

  • 準拠データを SAP アプリケーション (HANA バックエンドを使用する SAP アプリケーションに固有のアーキテクチャ) から Microsoft Synapse に自動的に移動し、テストに必要なデータをコスト重視で高速かつスケーラブルな方法でアナリストに提供します。 何百万ものスクランブル操作を数分で実行します。
  • 一般データ保護規制 (GDPR)、CCPA、LGPD、HIPAA など、データの規制要件に対処するために、完全な Delphix アルゴリズム フレームワークを自動的に配置します。
  • 統合アプリケーション テストの参照整合性を維持しながら、データ ソース間でデータを一貫してマスク/スクランブルします。 たとえば、George という名前は常に Elliot にマスクする必要があります。また、指定された社会保障番号 (SSN) は、SAP、Oracle、Salesforce などのアプリケーションに George とその SSN が表示されるかどうかにかかわらず、常に同じ架空の SSN にマスクする必要があります。
  • トレーニング サイクルを増やさず、モデルや予測精度に影響を与えない方法で、データをマスク/スクランブルします。
  • ソース コネクタを変更するだけで、オンプレミスとクラウドの両方で機能するソリューションを構成します。 たとえば、オンプレミスの SAP アプリケーションからデータをプルし、そのデータをクラウドにレプリケートして、Synapse に読み込む前にコンプライアンスを確保します。

主な利点

  • 参照整合性を維持する現実的で決定論的なマスク/スクランブリング
  • 最も一般的な SAP テーブルとモジュールの機密データの先行的な識別
  • ネイティブ クラウドの実行
  • テンプレート ベースのデプロイ
  • 拡張性
  • コストの高いインメモリ HANA HW に代わる低コストな代替手段

作業の開始

  1. Azure に Delphix CC エンジンをデプロイします。
  2. Azure Data Factory で、Delphix によるデータ マスキングと Delphix による機密データ検出のテンプレートをデプロイします。 注: これらのテンプレートは、Azure Synapse Analytics パイプラインと Azure Data Factory パイプラインの両方で機能します。
  3. SAP HANA からデータを抽出するためのハウツー ガイドの詳細に従って、セルフ ホステッド統合ランタイムを設定します。
  4. データのコピー コンポーネントで、抽出ステップで目的のソースを SAP HANA として、読み込みステップで目的のターゲットを Synapse として構成します。 Web アクティビティ コンポーネントで、Delphix アプリケーションの IP アドレス/ホスト名と、Delphix CC API で認証するための資格情報を入力します。
  5. 初期設定時に Delphix Azure Data Factory テンプレートによる機密データ検出を実行します。また、機密データを事前に識別したい場合 (スキーマの変更があった場合など) に随時実行します。 このテンプレートは、機密データを含む可能性がある列をスキャンするために必要な初期構成を Delphix CC に提供します。 また、これを Delphix Compliance Accelerator for SAP、事前に識別された機密フィールド、マスク アルゴリズムと組み合わせて使用し、財務、人事、ロジスティクス モジュールなどの主要な SAP テーブルのデータを保護することもできます。 このオプションに興味をお持ちの場合は、Delphix にお問い合わせください。
  6. プロファイルするデータのコレクションを示すルールセットを作成します。 Delphix UI でプロファイル ジョブを実行して、そのルールセットの機密性の高いフィールドを識別して分類し、適切なマスク アルゴリズムを割り当てます。
  7. テンプレートを実行します。 完了すると、Azure Synapse Analytics にマスクされたデータ (Delphix Compliance Accelerator for SAP によって上位のテーブル/モジュールに対して事前識別されたもの) が表示されます。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。

Delphix CC は、完全に機能する現実的なデータを使用してデータ値を不可逆的にマスクし、高品質のコードを開発できるようにします。 Delphix CC には、データをユーザー仕様に合わせて変換するために使用できる豊富なアルゴリズムのセットがあります。中でも、特許を取得したアルゴリズムでは、意図的にデータの競合を生成し、同時にマスクされたデータセットで実行される可能性のある検証ルーチンに必要な特定の値でデータをソルト化することができます。 ゼロ トラストの観点から、運用者はマスクするために実際のデータにアクセスする必要はありません。 さらに、ポイント A からポイント B へのマスクされたデータの配信全体を API を使用して自動化できます。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Azure 料金計算ツールで値を調整することで、特定の要件がコストに与える影響を確認できます。

Azure Synapse: コンピューティングおよびストレージのレベルを個別にスケーリングできます。 計算リソースは 1 時間単位で課金されるため、オンデマンドでそのリソースをスケーリングまたは一時停止できます。 ストレージ リソースはテラバイト単位で課金されるため、データを取り込んだ分だけコストが増加します。

Data Factory: コストは、ワークロード内で実行された読み取り/書き込み操作、監視操作、オーケストレーション アクティビティの数に基づきます。 Data Factory のコストは、データ ストリームおよび各データ ストリームでのデータ量が追加されると増加します。

Delphix CC: 市場に出回っている他のデータ コンプライアンス製品とは異なり、マスクにはマスクされる環境の完全な物理コピーは必要ありません。 インフラストラクチャを設定して保守する時間、インフラストラクチャ自体のコスト、マスク環境に物理データを繰り返し読み込むのに費やされる時間が原因で、環境の冗長性に関わるコストは高くなる可能性があります。

パフォーマンス効率

パフォーマンス効率とは、ユーザーによって行われた要求に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の柱の概要」を参照してください。

Delphix CC は、水平および垂直方向にスケーラブルです。 変換はメモリ内で発生し、並列化できます。 製品はサービスとして、またマルチノード アプライアンスとして実行され、アプリケーションに応じてあらゆるサイズのソリューション アーキテクチャが可能になります。 Delphix は、大規模なマスクされたデータ セットを提供する市場リーダーです。

マスク ストリームを増やして、1 つのジョブに複数の CPU コアを使用できます (構成に関する推奨事項とメモリの割り当てを変更する方法については、https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/ を参照してください)。

1 TB を超えるサイズのデータセットに最適なパフォーマンスを得るため、Delphix Hyperscale Masking では大規模で複雑なデータセットを多数のモジュールに分割し、複数の Continuous Compliance エンジン間でマスク ジョブを調整します。

共同作成者

この記事は、次の共同作成者によって作成されました。

プリンシパルの作成者:

  • Tess Maggio – プロダクト マネージャー 2
  • Arun Saju – シニア スタッフ エンジニア
  • Mick Shieh – SAP グローバル プラクティス リーダー

その他の共同作成者:

  • Michael Torok – デジタル カスタマー エクスペリエンス シニア ディレクター
  • Abhishek Narain – シニア プログラム マネージャー
  • Jon Burchel – シニア コンテンツ開発者

次のステップ