サポートされているデータソースとファイルの種類

[アーティクル]
09/01/2024

この記事では、Microsoft Purview データマップで現在サポートされているデータソース、ファイルの種類、スキャンの概念について説明します。

使用可能なデータソースのMicrosoft Purview データマップ

次の表は、Microsoft Purview で利用可能な技術メタデータを持つすべてのソースを示しています。詳細については、データソースを選択してください。この表には、各データソースでサポートされるその他の機能も一覧表示されており、詳細については、この機能を選択できます。

カテゴリ	サポートされているデータストア	スキャン	分類	ラベル付け	ポリシー	系統	データ共有	ライブビュー
Azure	複数のソース	○	はい	ソース依存	はい	いいえ	いいえ	制限付き
	Azure Blob ストレージ	○	○	はい	はい (プレビュー)	狹*	○	はい
	Azure Cosmos DB (NoSQL 用 API)	○	○	はい	いいえ	いいえ*	いいえ	いいえ
	Azure Data Explorer	○	○	はい	いいえ	いいえ*	いいえ	いいえ
	Azure Data Factory	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Azure Data Lake Storage Gen1	○	○	はい	いいえ	狹*	いいえ	いいえ
	Azure Data Lake Storage Gen2	○	○	はい	はい (プレビュー)	狹*	○	はい
	Azure Data Share	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Azure Database for MySQL	○	○	はい	いいえ	いいえ*	いいえ	いいえ
	Azure Database for PostgreSQL	○	○	はい	いいえ	いいえ*	いいえ	いいえ
	Azure Databricks Hive メタストア	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Azure Databricks Unity Catalog	○	○	はい	いいえ	いいえ	いいえ	いいえ
	Azure 専用 SQL プール (旧称 SQL DW)	○	はい	いいえ	いいえ	いいえ*	いいえ	いいえ
	Azure Files	○	○	はい	いいえ	狹*	いいえ	いいえ
	Azure Machine Learning	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Azure SQL データベース	○	○	○	はい	はい (プレビュー)	いいえ	はい
	Azure SQL Managed Instance	○	○	○	はい	いいえ*	いいえ	いいえ
	Azure Synapse Analytics (ワークスペース)	○	○	はい	いいえ	はい - Synapse パイプライン	いいえ	いいえ
カテゴリ	サポートされているデータストア	サポートされているデータストア	分類	ラベル付け	アクセスポリシー	系統	データ共有	ライブビュー
Database	Amazon RDS	○	はい	いいえ	いいえ	いいえ	いいえ	いいえ
	Amazon Redshift	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ
	Cassandra	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Db2	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Google BigQuery	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Hive メタストアデータベース	はい	いいえ	いいえ	いいえ	はい*	いいえ	いいえ
	MongoDB	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ
	MySQL	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Oracle	○	はい	いいえ	いいえ	はい*	いいえ	いいえ
	PostgreSQL	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	SAP ビジネスウェアハウス	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ
	SAP HANA	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ
	Snowflake	○	○	はい	いいえ	はい	いいえ	いいえ
	SQL Server	○	○	はい	いいえ	いいえ*	いいえ	いいえ
	Azure-Arc でのSQL Server	○	はい	いいえ	○	いいえ*	いいえ	いいえ
	Teradata	○	はい	いいえ	いいえ	はい*	いいえ	いいえ
カテゴリ	サポートされているデータストア	サポートされているデータストア	分類	ラベル付け	アクセスポリシー	系統	データ共有	ライブビュー
File	Amazon S3	○	○	○	はい	狹*	いいえ	いいえ
	HDFS	○	はい	いいえ	いいえ	いいえ	いいえ	いいえ
サービスとアプリ	通気	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Dataverse	○	○	はい	いいえ	いいえ	いいえ	いいえ
	Erwin	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	生地	はい	いいえ	いいえ	いいえ	はい	いいえ	○
	Looker	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ
	Power BI	はい	いいえ	いいえ	いいえ	はい	いいえ	はい**
	Qlik Sense	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ
	Salesforce	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ
	SAP ECC	はい	いいえ	いいえ	いいえ	はい*	いいえ	いいえ
	SAP S/4HANA	はい	いいえ	いいえ	いいえ	はい*	いいえ	いいえ
	Tableau	はい	いいえ	いいえ	いいえ	いいえ	いいえ	いいえ

* データソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

** Fabric テナント内の Power BI 項目は、ライブビューを使用して使用できます。

注:

現在、Microsoft Purview データマップは、その名前に/、\、または#を持つ資産をスキャンできません。スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。

重要

セルフホステッド統合ランタイムの使用を計画している場合、一部のデータソースをスキャンするには、セルフホステッド統合ランタイムコンピューターで追加のセットアップが必要です。たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 要件は、「 前提条件」 セクションに一覧表示されます。

領域をスキャンする

次に、Microsoft Purview データマップスキャナーを実行するすべての Azure データソース (データセンター) リージョンの一覧を示します。 Azure データソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。

Microsoft Purview データマップスキャナーリージョン

オーストラリア東部
オーストラリア南東部
ブラジル南部
カナダ中部
カナダ東部
インド中部
中国北部 3
東アジア
米国東部
米国東部 2
フランス中部
ドイツ中西部
東日本
韓国中部
米国中央北部
北ヨーロッパ
カタール中部
南アフリカ北部
米国中央南部
東南アジア
スイス北部
アラブ首長国連邦北部
英国南部
USGov バージニア
米国中央西部
西ヨーロッパ
米国西部
米国西部 2
米国西部 3

スキャンでサポートされるファイルの種類

スキャン、スキーマ抽出、および該当する場合の分類では、次のファイルの種類がサポートされています。

拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産と列レベルの分類が含まれます。AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
拡張子でサポートされるドキュメントファイル形式には、スキャンと資産レベルの分類が含まれます:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPSX、PPT、PPTM、PPTM、PPTX、XLC、XLSB、XLSM、XLSX、XLT
Microsoft Purview データマップでは、カスタムファイル拡張子とカスタムパーサーもサポートされています。

注:

既知の制限事項:

Microsoft Purview データマップスキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
- 列が 1 つだけの区切りファイルは CSV ファイルと判断できないため、スキーマがありません。
- データ型の検出はサポートされていません。データ型は、すべての列の "文字列" として一覧表示されます。
- コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
- 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
- フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。インストールガイドについては、ページの下部にある Java ランタイム環境に関するセクションを確認してください。
現在、デルタ形式はサポートされていません。 Azure Data Lake Storage (ADLS Gen2) などのストレージデータソースから差分形式を直接スキャンする場合は、「リソースセットについて」で説明されているように、デルタ形式の Parquet ファイルのセットが解析され、リソースセットとして処理されます。また、パーティション分割に使用される列は、リソースセットのスキーマの一部として認識されません。

スキーマの抽出

スキャン中のスキーマ抽出をサポートするデータソースの場合、資産スキーマは列の数で直接切り捨てられるわけではありません。

入れ子になったデータ

現在、入れ子になったデータは JSON コンテンツでのみサポートされています。

システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。

入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。

分類用のサンプリングデータ

Microsoft Purview データマップ用語では、

L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
L2 スキャン: 構造化ファイルの種類とデータベーステーブルのスキーマを抽出します
L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います

スキャンレベルのカスタマイズの詳細については、こちらをご覧ください。

すべての構造化ファイル形式の場合、Microsoft Purview データマップスキャナーは次のようにファイルをサンプリングします。

構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
ドキュメントファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
- ドキュメントファイルが 20 MB を超える場合、ディープスキャンの対象になりません (分類の対象)。その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
表形式データソース (SQL) の場合、上位 128 行をサンプリングします。
Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。

リソースセットのファイルサンプリング

フォルダーまたはパーティションファイルのグループは、システムリソースセットポリシーまたは顧客定義のリソースセット ポリシーと一致する場合、Microsoft Purview データマップでリソースセットとして検出されます。リソースセットが検出された場合、スキャナーは含まれる各フォルダーをサンプリングします。リソースセットの詳細については、こちらを参照してください。

ファイルの種類別のリソースセットのファイルサンプリング:

区切られたファイル (CSV、PSV、SSV、TSV) - "リソースセット" と見なされるパーティションファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソースセット" と見なされるパーティションファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソースセット" と見なされるパーティションファイルのフォルダーまたはグループ内でサンプリングされます
SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
ドキュメントファイルの種類 - 各ファイルが L3 スキャンされます。リソースセットパターンは、これらのファイルの種類には適用されません。

次の方法で共有

サポートされているデータソースとファイルの種類

使用可能なデータソースのMicrosoft Purview データマップ

領域をスキャンする

Microsoft Purview データマップスキャナーリージョン

スキャンでサポートされるファイルの種類

スキーマの抽出

入れ子になったデータ

分類用のサンプリングデータ

リソースセットのファイルサンプリング

次の手順

フィードバック

その他のリソース

次の方法で共有

サポートされているデータ ソースとファイルの種類

使用可能なデータ ソースのMicrosoft Purview データ マップ

領域をスキャンする

Microsoft Purview データ マップ スキャナーリージョン

スキャンでサポートされるファイルの種類

スキーマの抽出

入れ子になったデータ

分類用のサンプリング データ

リソース セット のファイル サンプリング

次の手順

フィードバック

その他のリソース

サポートされているデータソースとファイルの種類

使用可能なデータソースのMicrosoft Purview データマップ

Microsoft Purview データマップスキャナーリージョン

分類用のサンプリングデータ

リソースセットのファイルサンプリング