メタデータ標準

メタデータ管理は、データ アーキテクチャにおいて重要な役割を果たします。 メタデータとは、他のデータに関するデータのことです。 データに関する記述であり、データの検索、セキュリティ保護、制御に役立つ参照を提供します。 メタデータでは、データのバインドも行われます。 これは、データの整合性と品質の検証、新しい場所へのデータのルーティングやレプリケート、データの変換、データの意味の把握に使用できます。 メタデータは、セルフサービス ポータルを使用してデータを民主化する場合にも不可欠です。

業界では、メタデータの利用度が高いポータルにより、データ アナリストやデータ科学者にとってデータ分析情報が使いやすくなる傾向が高まっています。 この傾向は、"データ監視" と呼ばれます。 データ監視では、メタデータ レイク、ナレッジ グラフ、メタデータ グラフなどの概念を使用して、メタデータが一元化されているプラットフォームについて記述します。 これは、分散データ メッシュを使用する場合に、組織全体でデータの使用およびソーシング方法についての統一見解を構築するために適した方法です。

優れたメタデータ管理戦略は、有機的に成長します。 これは、最も重要な領域をまず特定することにより、シンプルかつ小規模に始まります。 優れたメタデータ管理戦略は、サービスと明確なプロセスでもサポートされています。 開始するにあたって、さまざまなメタデータのカテゴリを意識するのはよいことです。

  • ビジネス メタデータは、ガバナンス、データの検出と解釈に使用されるすべての側面について記述したものです。 よく知られている例としては、ビジネス用語と定義、データの所有権、使用状況、および発生元に関する情報などがあります。
  • 技術メタデータは、デザイン時のデータの構造面について記述したものです。 よく知られている例としては、スキーマ情報、データ形式とプロトコル情報、暗号化キーと復号化キーなどがあります。
  • 運用メタデータは、実行時のデータ処理の側面について記述したものです。 よく知られている例としては、プロセス情報、実行時間、プロセス エラー情報、ジョブ ID などがあります。
  • ソーシャル メタデータは、コンシューマーの側から、データのユーザーの観点について記述したものです。 よく知られている例としては、使用情報とユーザー追跡情報、検索結果データ、フィルターとクリック、表示時間、プロファイル ヒット、コメントなどがあります。

分散データ アーキテクチャでは、メタデータ管理は、一元管理されたメタデータとフェデレーション管理されたメタデータの間でバランスを取ることが必要となる組織の課題です。 メタデータ管理を計画する際に、Azure でのクラウド規模の分析のためのチームと機能について理解することが重要です。 データ管理を共同作業で行うと、チーム間のコミュニケーション、統合、データ フローの自動化が改善されます。 中央ガバナンスとドメイン所有権の適切なバランスを取ることで、メタデータ管理の複雑さの一部に対処できます。

どのメタデータを一元管理し、どのメタデータをデータ ドメインにフェデレーションして実装を開始するかを決定する場合は、次の点を確認します。

  • 重要なビジネス メタデータはどれか
  • 相互運用性に必要な技術メタデータはどれか
  • どのプロセスおよびストリームでデータをキャプチャするか
  • モデルやスキーマはどこで作成および管理されるか
  • データ ガバナンス部門が作業を正しく行えるようにするために、情報チームは何を一元的に提供する必要があるか

これらの質問に対する回答を使って、各メタデータ ストリームのコンテンツ ライフ サイクルを計画し、すべての依存関係を決定します。 そのようにすることで、ビジネス ドメイン、プロセス、テクノロジ、データをつなぐメタデータ モデルを作成できます。

必要なメタデータがわかったら、そのデータを保存および処理する場所を選択する必要があります。 これを行うには、Microsoft Purview を使用します。

Microsoft Purview を使用してデータ資産を大規模に管理する

Microsoft Purview は、オンプレミスのマルチクラウド SaaS (サービスとしてのソフトウェア) データの管理とガバナンスに役立つ統合データ ガバナンス ソリューションです。 データ検出、データスキャン、データ品質、アクセス管理をインテリジェントに実行する完全に自動化されたサービスであるため、これを使用することで大規模なメタデータ管理を実現できます。 また、使用しているデータ メッシュ アーキテクチャに関する多くの分析情報の包括的なマップも提供します。

Microsoft Purview は、データの場所に関係なく組織が統制、保護、管理できるように支援する包括的なソリューション セットです。 Microsoft Purview ソリューションによって、統合されたカバレッジを実現し、組織全体のデータのフラグメント化、データ保護とガバナンスを妨げる可視性の欠如、従来の IT 管理のロールのあいまいさに対処することができます。

Microsoft Purview は、データ ガバナンスとコンプライアンスのソリューションとサービスを統合したプラットフォームで組織を支援します。

  • 組織全体のデータの可視化
  • 機密データがどこにあっても、ライフサイクル全体にわたって保護および管理する
  • 新しい包括的な方法でデータをシームレスに管理する
  • 重要なデータ リスクと規制要件を管理する

Microsoft Purview を実装する場合は、あまり多くの変更や複雑さを急激に組み込まないでください。 テクニカル メタデータは、Microsoft Purviewの基盤です。 メタデータを理解するには、メタデータを収集して整理しておく必要があります。

メタデータを取得したら、次の基本から始めます。

  • ビジネス用語
  • 権限のあるデータ ソースの一覧
  • データベースの一覧
  • ガバナンス ドメイン
  • スキーマ情報
  • データ所有権
  • データ スチュワードシップ
  • セキュリティ
  • データ品質

次に、より多くのドメイン所有者とデータ スチュワードをゆっくりと含め、分類と秘密度ラベルをさらに追加することでスケーリングします。 これらを追加することにより、検索エクスペリエンスが向上し、データ アクセス管理が向上します。

Microsoft Purview には、ガバナンス ドメインと呼ばれる機能が用意されています。これにより、ドメイン指向アーキテクチャ内のデータ製品とビジネス概念の統一されたガバナンス、所有権、検出の境界が確立されます。 詳細については、「Microsoft Purview のガバナンス ドメイン」を参照してください。

Azure Cosmos DB を使用してナレッジ グラフを作成する

データ分析情報ソリューションでは、データの使用方法、ソース データやデータ製品などのエンティティ間の関係、およびあるドメインのデータ製品と別のドメインの依存製品の間の関係について記述する必要があります。 グラフ データベースやカスタム ユーザー インターフェイスを使用して、これらの関係をモデル化できます。

カスタム ユーザー エクスペリエンスを使用して組織のデータの統合ビューを構築するには、Azure Cosmos DB を使用します。 Azure Cosmos DB は、NoSQL エンドポイントを使用した、グローバル分散型のマルチモデル データベース サービスです。 このサービスは、Azure Cosmos DB for Apache Gremlin を使用してグラフ データベース サービスを提供し、何十億もの頂点と辺のある大規模なグラフを保存します。

Azure Cosmos DB アーキテクチャでは、最終的に、エンドツーエンド コンテキストを使用して組織内のすべてのデータを一元的に表示できる組織全体のグラフを作成できます。 メタデータ レイクの役割は、情報を格納することだけではありません。 メタデータ レイクは、他のサービスやツールと接続することにより、メタデータをグラフとしてアクティブに整理します。 整理されたこのグラフを使用することにより、次のような多くのサブジェクト領域を相互に関連付けることができます。

  • ドメイン
  • データ品質
  • データ使用量
  • ビジネス機能
  • アプリケーションの機能
  • 技術アーキテクチャ情報
  • 操作イベント
  • 組織のメタデータ
  • アプリケーション所有権のメタデータ
  • 場所情報
  • アプリケーション ライフ サイクル管理情報

次のステップ