CluedIn と Azure Purview を使用してマスター データ サービスを Azure に移行する

Microsoft Purview
Azure Data Factory
Azure SQL データベース
Azure Synapse Analytics

このアーキテクチャでは、マスター データ管理 (MDM) の多くの重要な要素が、一貫性のあるエンドツーエンドの MDM ソリューションにカプセル化されます。 CluedIn では、MDM プロジェクトを加速し、MDM イニシアチブの成功率を高めることが証明されている"ゼロ モデリング" の MDM アプローチが導入されています。

アーキテクチャ

次の図は、CluedIn のアーキテクチャ構造とデータ フローを示しています。

CluedIn のアーキテクチャ構造を示す図。

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

CluedIn では、Azure 仮想プライベート ネットワーク (VPN) を使用して、オンプレミスの MDS インスタンスを移行するために接続したり、ホストされている MDS インスタンスを使用して、クラウドでホストされている SQL VM に直接接続したりできます。 CluedIn で必要なことは、MDS の Windows Communication Foundation (WCF) サービスを指すことだけです。それによって、データ、ルール、ワークフロー、その他すべてを CluedIn またはそれぞれの Microsoft サービスに移動するプロセスが自動化されます。

Microsoft Cost Management へのネイティブ統合により、MDS から CluedIn に移行するときに CluedIn MDM ワークロードを簡単に予測できます。 CluedIn では、環境をスケールアップまたはダウンするために、Azure の自動スケーリング機能が使用されます。 また、クラウドでの支出を簡単に制御できるように、CluedIn は Azure の予算にネイティブに統合されます。 この統合により、Azure プラットフォーム内でコストが明らかになるため、時間のかかる予測と予算作成の必要性がなくなります。

SSIS パッケージを Azure Data Factory に移行して、すべての ETL (抽出、変換、読み込み) パイプラインをクラウドネイティブ ソリューションに移行できます。

コンポーネント

CluedIn では、次のコンポーネントを含む 27 個の Azure サービスへのネイティブ統合が提供されています。

代替

また、プラットフォームを、CluedIn のコア機能の代替シナリオに拡張することもできます。

このバージョンの CluedIn では、プラットフォームの拡張はすべてネイティブ Azure サービスを使用して行われます。 開発者が望む方法で操作できるように、イベントはすべてイベント ハブで公開されます。 Azure Data Factory を使用して CluedIn にデータをプッシュできます。これにより、さまざまな Azure サービスにわたるデータを CluedIn に取り込むためのサポートが提供されます。 Azure Functions を使用して Event Hubs をサブスクライブし、そこに Azure Functions でサポートされている任意の言語でカスタマイズを作成できます。

シナリオの詳細

マスター データには、データ品質、データ ガバナンス、および社内の最も重要なビジネス データのマスター化を解決するタスクが与えられています。 現在、オンプレミスまたはクラウドでホストされている SQL マスター データ サービス (MDS) インスタンスを使用している場合は、次のシナリオを使用すると、CluedIn によるネイティブ Azure マスター データ管理ソリューションへの移行エクスペリエンスが簡素化されます。

CluedIn には、日常のワークロードを MDS から CluedIn に簡単に移行するためのユーザー知識をデータ スチュワードと MDM チームに提供する、SQL MDS に対するサイドバイサイドの機能パリティが用意されています。 それに加え、CluedIn には、ビジネスの分析準備が整ったデータの基盤など、さらに多くの貴重なデータ マスター機能も用意されています。

CluedIn の機能

通常、マスター データ サービスには次の主な機能が含まれています。

  • モデルのバージョン管理のサポート
  • ビジネス ルール
  • Data Quality Services
  • ワークフロー
  • 階層
  • Excel のプラグイン

CluedIn には、上記のすべてに対する機能が用意されています。 それに加えて、次のユースケースも有効になっています。

  • 階層は、Power BI でネイティブに表示できるようになりました。
  • ワークフローは移行され、Power Automate で直接ビルドおよび拡張できます。
  • ビジネス ルールとデータ品質サービスは、CluedIn ルール エンジンにネイティブに移行されます。
  • CluedIn には、住所や会社情報などを自動的に修正して検証する、MDS レコード用の組み込みデータ エンリッチメントが用意されています。
  • 同意を管理し、データ主体のアクセス要求を実行します。
  • 必要に応じて、MDS に書き戻します。

CluedIn では、データ変更履歴の移行もサポートされており、MDS インスタンスからデータ品質履歴を自動的に作成できます。 移行プロセスが完了してすぐに MDS インスタンスをオフにしない場合は、MDS ソリューションと CluedIn の in-sync を実行することもできます。

CluedIn では、Common Data Model または Dataverse がネイティブにサポートされます。 つまり、Power Apps、Power Automate、Power BI、仮想チャットボット、および Microsoft Dynamics のユーザーは、追加の設定や統合を行わずに、CluedIn のデータをすべてネイティブに利用できます。

CluedIn は Azure Purview とネイティブに統合される

Azure Purview によってデータ ガバナンス機能が Microsoft Azure クラウドに導入され、CluedIn によってその機能へのネイティブ統合が提供されます。

  • Azure Purview の用語集は CluedIn で直接使用できます (その逆も同様)。
  • CluedIn では、Purview に登録されている資産を取り込むことができます。
  • CluedIn では、Azure Purview から個人情報をスキャンし、個人データがあるレコード レベルを特定できます。 また、構造化されたものだけでなく、構造化されていないものや半分構造化されたデータ内の個人情報のサポートも追加されます。
  • CluedIn は Purview のスキーマ セットを使用して、自動的にデータ セットを CluedIn にマップします。
  • CluedIn では、詳細な処理ログを使用して Purview のデータ系列を拡張します。
  • CluedIn では、新しいデータ インジェストがスケジュールされる前に Purview スキャンを開始できます。

次の図は、データ系列機能セットを示しています。

CluedIn のデータ系列機能セットを示すスクリーンショット。

Azure Data Factory のサポート

Azure Data Factory (ADF) により、100 を超えるサービスへの接続のサポートが提供されます。 このデータは、ADF からのプッシュ データのライブ ストリームを使用して CluedIn に直接配信できます。 CluedIn を使用すると、マスター データ サービス (MDS) インスタンスに接続できるだけでなく、サービスとしてのソフトウェア (SaaS)、データベース、データ レイクなどから数百のデータ ソースに接続できます。

ADF の主なサポート機能を次に示します。

  • イベント ハブからのイベントをリッスンするように設定し、データをすぐに CluedIn にフィードバックできます。
  • ADF 固有のエンドポイントを設定するためのネイティブ サポートは、CluedIn 内で直接使用できます。
  • 新しいターゲット シンクで既存の ADF パイプラインを簡単に利用できます。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

モデリング

CluedIn では自動モデリング プロセスが使用されます。そのため、マスター データ サービス (MDS) や、Microsoft Dynamics などの他のデータ ソースからデータ モデルを移行したり再作成したりする必要はありません。 この機能では、グラフ データベースを使用して、システムに送信されるデータに基づいてモデルが自動的に構築されます。 従来のリレーショナル ベースのモデルからグラフに移行すると、マスター データ イニシアチブに大きな価値と柔軟性がもたらされます。 グラフ アプローチは、リレーショナル スタイルのモデリングとそれほど違いません。

このモデリングの最も重要な側面は、リレーショナル スタイルを使用すると、すべて異なる形状とサイズでマスター データ モデルを表す柔軟な方法を利用できるようになることです。 マスター データ モデルをさまざまなユース ケースやビジネス要件に合わせて拡大する必要がある場合、このスタイルによって、計り知れない柔軟性が提供されます。 CluedIn では、データ インジェストに対して先行スキーマレス アプローチが使用されます。 データは、プラットフォームに入るときに厳格なスキーマに適合する必要はありません。 ただし、CluedIn プラットフォームからのデータを適用しているさまざまなユース ケースでデータが使用されている場合は、CluedIn からデータが出るときに厳格なスキーマを適用できます。

次の図は、関係機能セットを示しています。

CluedIn の関係機能セットを示すスクリーンショット。

可用性

このソリューションはマネージド アプリケーション オファリングとしてホストされ、独自のテナントで適用できます。そこでは、ベンダーによって、アップグレード、メンテナンス、バックアップなどの管理がユーザーに代わって行われます。

CluedIn は、Azure Service Health と Azure の予定メンテナンスにネイティブに統合されるため、アップグレードと修正プログラムは Azure のネイティブのお知らせのように感じられます。 Azure 環境の高い堅牢性と組み合わせることで、CluedIn はサービス レベル アグリーメント (SLA) の最高要件を満たすことができます。

パフォーマンス効率

パフォーマンス効率とは、ユーザーによって行われた要求に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の柱の概要」を参照してください。

CluedIn ではストレージがコンピューティングから分離されているため、データの処理は完全に "ステートレス" です。 ストリーミング サービス バスによってサポートされているため、CluedIn では、ワークロードに応じて必要なだけスケールアップまたはダウンできます。 CluedIn では、スケーリングを自動化できるように、Azure Kubernetes Service (AKS) 内の Azure の自動スケーリング機能がサポートされています。 データ処理のパフォーマンスを向上させるためには、より多くの処理ポッドを Kubernetes クラスターに割り当てます。それらはすべて自動化できます。

スケーラビリティ

CluedIn では、必要な数だけ MDS インスタンスを統合することがサポートされています。 たとえば、CluedIn に 50 個の MDS インスタンスを取り込んで管理できます。 それらは、マルチテナントで、またはすべてを同じアカウント内に混在させて実行できます。 MDS ソリューションが CluedIn に移行されたら、さまざまな方法で新しいシステムとマスター データをオンボードし、さまざまな方法でデータを読み込むことができます。

CluedIn は Docker コンテナーで実行され、Kubernetes を使用して、アプリケーションのさまざまな部分をホストおよび調整します。 このアーキテクチャは、CluedIn がエラスティック環境で適切に機能し、必要なサイズとインフラストラクチャに合わせて自動的にスケーリングできることを意味します。

自動スケーリングのネイティブ サポートにより、CluedIn では Azure の機能を使用して、最大のデータ ワークロードに対するスケーラブルな環境が提供されます。 CluedIn アカウントが、プラットフォームに数千万または数億のレコードを持っていることは珍しくはありません。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。

CluedIn のセキュリティでは、Azure のロールベースのアクセス制御 (RBAC)、Azure Key Vault セキュリティ キー制御、および Azure Monitor のアクセス追跡とログ記録を使用して、アクセス許可が付与され、さまざまなサービスへのアクセスが制御されます。 CluedIn によって、認証されたユーザー アカウントだけでなく、シングル サインオン (SSO) と ID フレームワークもサポートされます。 CluedIn アプリケーションに対する要求では、ユーザー ID と相関関係のない暗号化されたアクセス トークンが使用されます。 Microsoft Entra ID のネイティブ サポートを使用すると、Security Assertion Markup Language (SAML) 2.0 情報を単に CluedIn にプラグインすれば、すぐにそれを使用して、新しい MDM ソリューションに対するユーザーとロールのアクセス権を管理できます。

回復性

CluedIn は、データ ストアとアプリケーション レベルで高可用性モードで実行されます。 ストレージと処理が分離されているため、CluedIn には回復性とフォールト トレランスが組み込まれています。 CluedIn アプリケーションのさまざまな部分を個別にスケールアップまたはダウンすることで、さまざまなワークロードに対応できます。

オペレーショナル エクセレンス

CluedIn では、AKS 環境へのデプロイとローリング更新を処理するために、Azure Pipelines の継続的インテグレーションと継続的デリバリー (CI/CD) パイプラインが使用されます。 また、ユーザーはこのインフラストラクチャを使用して、独自のカスタマイズを CluedIn 自体にデプロイできます。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

CluedIn の開始コストは低く、使用方法に基づき、使用量に合わせて価格がスケールアップされます。 予算は Azure portal 内で直接設定できるため、運用コストを制御できます。

Azure のサイズ設定と試用の開始

Web サイトで CluedIn の試用を開始できます。さまざまなサイズの環境用に事前に作成された Azure の見積もりが用意されているため、Azure ホスティングのコストを調べるのにも役立ちます。

このシナリオのデプロイ

Docker を使用した開発と評価の目的で CluedIn をデプロイするには、「ローカル インストール ガイド」を参照してください。

運用環境に CluedIn をインストールするには、Azure Marketplace から 独自の Azure テナントに CluedIn インスタンスを直接インストールできます。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の手順