資産の正規化

Microsoft Purview データ マップに資産を取り込む場合、同じデータ資産を更新する異なるソースから、類似したが、修飾名が若干異なる場合があります。 これらの修飾名は同じ資産を表しますが、余分な文字などのわずかな違いにより、サーフェス上のこれらの資産が異なって表示され、Microsoft Purview で重複するエントリが発生する可能性があります。 重複するエントリを格納し、データ カタログを使用するときに混乱を引き起こさないように、Microsoft Purview では、インジェスト中に正規化を適用して、同じエンティティ型のすべての完全修飾名が同じ形式になるようにします。

たとえば、修飾名 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetを使用して Azure Blob でスキャンします。 この BLOB は、資産に系列情報を追加するAzure Data Factory パイプラインによっても使用されます。 ADF パイプラインは、ファイルを として https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet読み取るように構成できます。 修飾名は異なりますが、この ADF パイプラインは同じデータを使用しています。 正規化を使用すると、Azure Blob StorageとAzure Data Factoryの両方のすべてのメタデータが 1 つの資産 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet() で確実に表示されます。

重要

以下に示す規則は、Microsoft Purview が現在認識している可能性がある重複の唯一の種類です。 資産の重複が誤って発生する場合は、アセットの完全修飾名をチェックと比較して、制限の違いまたは追加の文字を使用します。 修飾名が一致するように、ADF パイプラインなどのインジェスト ポイントを更新します。

正規化ルール

Microsoft Purview によって適用される正規化規則を次に示します。

中かっこをエンコードする

適用対象: すべての資産

以前は: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

後: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

セクションスペースをトリミングする

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Azure Data Share、Amazon S3

以前は: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

後: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

ホスト名スペースを削除する

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Azure Data Share、Amazon S3

以前は: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

角かっこを削除する

適用対象: Azure SQL データベース、Azure SQL Managed Instance、Azure SQL プール

以前は: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

後: mssql://foo.database.windows.net/bar/dbo/foo%20bar

注:

2 つの角かっこの間のスペースはエンコードされます

小文字のスキーム

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Amazon S3

以前は: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小文字のホスト名

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Amazon S3

以前は: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小文字のファイル拡張子

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3

以前は: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

後: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

重複するスラッシュを削除する

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Azure Data Share、Amazon S3

以前は: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

ADL スキームへの変換

適用対象: Gen1 Azure Data Lake Storage

以前は: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

後: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

末尾のスラッシュを削除する

Azure Blob、ADLS Gen1、および ADLS Gen2 の上位レベルの資産から末尾のスラッシュを削除する

適用対象: Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2

資産の種類: "azure_blob_container"、"azure_blob_service"、"azure_storage_account"、"azure_datalake_gen2_service"、"azure_datalake_gen2_filesystem"、"azure_datalake_gen1_account"。

以前は: https://myaccount.core.windows.net/

後: https://myaccount.core.windows.net

次の手順

Azure Blob Storage アカウントで Microsoft Purview データ マップをスキャンします。