リソース セットについて
この記事は、Microsoft Purview がリソース セットを使用してデータ資産を論理リソースにマップする方法を理解するのに役立ちます。
背景情報
大規模なデータ処理システムは、通常、1 つのテーブルを複数のファイルとしてストレージに格納します。 Microsoft Purview データ カタログでは、この概念はリソース セットを使用して表されます。 リソース セットは、ストレージ内の多数の資産を表すカタログ内の 1 つのオブジェクトです。
たとえば、Spark クラスターが DataFrame を Azure Data Lake Storage (ADLS) Gen2 データ ソースに永続化したとします。 Spark ではテーブルは 1 つの論理リソースのように見えますが、ディスク上には数千個の Parquet ファイルが存在する可能性があります。それぞれが DataFrame の合計コンテンツのパーティションを表します。 IoT データと Web ログ データには同じ課題があります。 ログ ファイルを 1 秒に数回出力するセンサーがあるとします。 その 1 つのセンサーから何十万ものログ ファイルが作成されるまで、時間はかかりません。
Microsoft Purview がリソース セットを検出する方法
Microsoft Purview では、Azure Blob Storage、ADLS Gen1、ADLS Gen2、Azure Files、Amazon S3 のリソース セットの検出がサポートされています。
Microsoft Purview では、スキャン時にリソース セットが自動的に検出されます。 この機能は、スキャンによって取り込まれるすべてのデータを調べると、定義されたパターンのセットと比較します。
たとえば、URL が https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
であるデータ ソースをスキャンするとします。 Microsoft Purview は、パス セグメントを調べて、組み込みのパターンと一致するかどうかを判断します。 GUID、数値、日付形式、ローカライズ コード (en-us など) などのパターンが組み込まれています。 この場合、数値パターンは 23 と一致します。 Microsoft Purview は、このファイルが という名前 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
のリソース セットの一部であることを前提としています。
または、のような https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
URL の場合、Microsoft Purview はローカライズ パターンと番号パターンの両方に一致し、 という名前 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
のリソース セットが生成されます。
この戦略を使用して、Microsoft Purview は次のリソースを同じリソース セット https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
にマップします。
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Microsoft Purview がリソース セットとして検出しないファイルの種類
Microsoft Purview では、Word、Excel、PDF などのほとんどのドキュメント ファイルの種類をリソース セットとして意図的に分類しようとはしません。 これは一般的なパーティション分割されたファイル形式であるため、例外は CSV 形式です。
Microsoft Purview でリソース セットをスキャンする方法
Microsoft Purview は、リソース セットの一部と見なされるリソースを検出すると、フル スキャンからサンプル スキャンに切り替えます。 サンプル スキャンでは、リソース セット内にあると思われるファイルのサブセットのみが開きます。 開くファイルごとに、そのスキーマを使用し、その分類子を実行します。 次に、Microsoft Purview は、開いているリソースの中で最新のリソースを検索し、カタログ内のリソース セット全体のエントリでそのリソースのスキーマと分類を使用します。
高度なリソース セット
Microsoft Purview では、 高度なリソース セット 機能を使用して、リソース セット資産をカスタマイズして強化できます。 高度なリソース セットを使用すると、Microsoft Purview は取り込まれたデータの基になるパーティションを理解し、スキャン中に Microsoft Purview でリソース セットをグループ化する方法をカスタマイズするリソース セット パターン ルール を作成できます。
高度なリソース セットが有効になっている場合、Microsoft Purview は追加の集計を実行して、リソース セット資産に関する次の情報を計算します。
- リソース セットを構成するファイルからのサンプル パス。
- リソース セットを構成するファイルの数を示すパーティション数。
- リソース セットを構成するすべてのファイルの合計サイズ。
これらのプロパティは、リソース セットの資産の詳細ページにあります。
高度なリソース セットを有効にする
すべての新しい Microsoft Purview インスタンスでは、高度なリソース セットは既定でオフになっています。 高度なリソース セットは、管理ハブの アカウント情報 から有効にすることができます。 ルート コレクションのデータ キュレーター ロールに追加されたユーザーのみが、高度なリソース セット設定を管理できます。
高度なリソース セットを有効にすると、新しく取り込まれたすべての資産で追加のエンリッチメントが実行されます。 Microsoft Purview チームは、機能を切り替えてから新しいデータ レイク データをスキャンする前に 1 時間待つようお勧めします。
重要
高度なリソース セットを有効にすると、資産と分類の分析情報の更新レートに影響します。 高度なリソース セットがオンの場合、資産と分類の分析情報は 1 日に 2 回のみ更新されます。
組み込みのリソース セット パターン
Microsoft Purview では、次のリソース セット パターンがサポートされています。 これらのパターンは、ディレクトリ内の名前として、またはファイル名の一部として表示できます。
正規表現ベースのパターン
パターン名 | 表示名 | 説明 |
---|---|---|
Guid | {GUID} | RFC 4122 で定義されているグローバル一意識別子 |
番号 | {N} | 1 つ以上の数字 |
日付/時刻形式 | {Year}{Month}{Day}{N} | さまざまな日付/時刻形式がサポートされていますが、すべて {Year}[区切り記号]{Month}[区切り記号]{Day} または一連の {N}s で表されます。 |
4ByteHex | {HEX} | 4 桁の 16 進数。 |
ローカリゼーション | {LOC} | BCP 47 で定義されている言語タグは、- と _ の両方の名前がサポートされています (たとえば、en_caと en-ca) |
複雑なパターン
パターン名 | 表示名 | 説明 |
---|---|---|
SparkPath | {SparkPartitions} | Spark パーティション ファイル識別子 |
Date(yyyy/mm/dd)InPath | {Year}/{Month}/{Day} | 複数のフォルダーにまたがる年/月/日パターン |
リソース セットをMicrosoft Purview データ カタログに表示する方法
Microsoft Purview は、資産のグループをリソース セットに一致させると、カタログ内の表示名として使用する最も有用な情報を抽出しようとします。 適用される既定の名前付け規則の例を次に示します。
例 1
修飾名: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
表示名: "spark 出力の名前"
例 2
修飾名: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
表示名: "パーティション 分割されたデータ"
例 3
修飾名: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
表示名: "data"
パターン ルールを使用したリソース セットのグループ化のカスタマイズ
ストレージ アカウントをスキャンする場合、Microsoft Purview は一連の定義済みパターンを使用して、資産のグループがリソース セットであるかどうかを判断します。 場合によっては、Microsoft Purview のリソース セットグループがデータ資産を正確に反映していない場合があります。 これらの問題には、次のものが含まれます。
- 資産をリソース セットとして誤ってマークする
- 資産を間違ったリソース セットに配置する
- 資産がリソース セットではないことを誤ってマークする
Microsoft Purview でリソース セットとしてグループ化される資産とそのカタログ内での表示方法を検出する方法をカスタマイズまたはオーバーライドするには、管理センターでパターン ルールを定義します。 詳細な手順と構文については、「 リソース セットパターンルール」を参照してください。
リソース セットに関する既知の制限事項
- 既定では、リソース セット資産は、 高度なリソース セット が有効になっている場合にのみスキャンによって削除されます。 この機能がオフの場合、リソース セット資産は手動または API 経由でのみ削除できます。
次の手順
Microsoft Purview の使用を開始するには、「 クイック スタート: Microsoft Purview アカウントを作成する」を参照してください。