サポートされているデータ ソースとファイルの種類

この記事では、Microsoft Purview データ マップで現在サポートされているデータ ソース、ファイルの種類、スキャンの概念について説明します。

使用可能なデータ ソースのMicrosoft Purview データ マップ

次の表は、Microsoft Purview で利用可能な技術メタデータを持つすべてのソースを示しています。 詳細については、データ ソースを選択してください。 この表には、各データ ソースでサポートされるその他の機能も一覧表示されており、詳細については、この機能を選択できます。

カテゴリ サポートされているデータ ストア スキャン 分類 ラベル付け ポリシー 系統 データ共有 ライブ ビュー
Azure 複数のソース はい ソース依存 はい いいえ いいえ 制限付き
Azure Blob ストレージ はい はい (プレビュー) 狹* はい
Azure Cosmos DB (NoSQL 用 API) はい いいえ いいえ* いいえ いいえ
Azure Data Explorer はい いいえ いいえ* いいえ いいえ
Azure Data Factory はい いいえ いいえ いいえ はい いいえ いいえ
Azure Data Lake Storage Gen1 はい いいえ 狹* いいえ いいえ
Azure Data Lake Storage Gen2 はい はい (プレビュー) 狹* はい
Azure Data Share はい いいえ いいえ いいえ はい いいえ いいえ
Azure Database for MySQL はい いいえ いいえ* いいえ いいえ
Azure Database for PostgreSQL はい いいえ いいえ* いいえ いいえ
Azure Databricks Hive メタストア はい いいえ いいえ いいえ はい いいえ いいえ
Azure Databricks Unity Catalog はい いいえ いいえ いいえ いいえ
Azure 専用 SQL プール (旧称 SQL DW) はい いいえ いいえ いいえ* いいえ いいえ
Azure Files はい いいえ 狹* いいえ いいえ
Azure Machine Learning はい いいえ いいえ いいえ はい いいえ いいえ
Azure SQL データベース はい はい (プレビュー) いいえ はい
Azure SQL Managed Instance はい いいえ* いいえ いいえ
Azure Synapse Analytics (ワークスペース) はい いいえ はい - Synapse パイプライン いいえ いいえ
カテゴリ サポートされているデータ ストア サポートされているデータ ストア 分類 ラベル付け アクセス ポリシー 系統 データ共有 ライブ ビュー
Database Amazon RDS はい いいえ いいえ いいえ いいえ いいえ
Amazon Redshift はい いいえ いいえ いいえ いいえ いいえ いいえ
Cassandra はい いいえ いいえ いいえ はい いいえ いいえ
Db2 はい いいえ いいえ いいえ はい いいえ いいえ
Google BigQuery はい いいえ いいえ いいえ はい いいえ いいえ
Hive メタストア データベース はい いいえ いいえ いいえ はい* いいえ いいえ
MongoDB はい いいえ いいえ いいえ いいえ いいえ いいえ
MySQL はい いいえ いいえ いいえ はい いいえ いいえ
Oracle はい いいえ いいえ はい* いいえ いいえ
PostgreSQL はい いいえ いいえ いいえ はい いいえ いいえ
SAP ビジネス ウェアハウス はい いいえ いいえ いいえ いいえ いいえ いいえ
SAP HANA はい いいえ いいえ いいえ いいえ いいえ いいえ
Snowflake はい いいえ はい いいえ いいえ
SQL Server はい いいえ いいえ* いいえ いいえ
Azure-Arc でのSQL Server はい いいえ いいえ* いいえ いいえ
Teradata はい いいえ いいえ はい* いいえ いいえ
カテゴリ サポートされているデータ ストア サポートされているデータ ストア 分類 ラベル付け アクセス ポリシー 系統 データ共有 ライブ ビュー
File Amazon S3 はい 狹* いいえ いいえ
HDFS はい いいえ いいえ いいえ いいえ いいえ
サービスとアプリ 通気 はい いいえ いいえ いいえ はい いいえ いいえ
Dataverse はい いいえ いいえ いいえ いいえ
Erwin はい いいえ いいえ いいえ はい いいえ いいえ
生地 はい いいえ いいえ いいえ はい いいえ
Looker はい いいえ いいえ いいえ はい いいえ いいえ
Power BI はい いいえ いいえ いいえ はい いいえ はい**
Qlik Sense はい いいえ いいえ いいえ いいえ いいえ いいえ
Salesforce はい いいえ いいえ いいえ いいえ いいえ いいえ
SAP ECC はい いいえ いいえ いいえ はい* いいえ いいえ
SAP S/4HANA はい いいえ いいえ いいえ はい* いいえ いいえ
Tableau はい いいえ いいえ いいえ いいえ いいえ いいえ

* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

** Fabric テナント内の Power BI 項目は、ライブ ビューを使用して使用できます。

注:

現在、Microsoft Purview データ マップは、その名前に/\、または#を持つ資産をスキャンできません。 スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。

重要

セルフホステッド統合ランタイムの使用を計画している場合、一部のデータ ソースをスキャンするには、セルフホステッド統合ランタイム コンピューターで追加のセットアップが必要です。 たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。 ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 要件は、「 前提条件」 セクションに一覧表示されます。

領域をスキャンする

次に、Microsoft Purview データ マップ スキャナーを実行するすべての Azure データ ソース (データ センター) リージョンの一覧を示します。 Azure データ ソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。

Microsoft Purview データ マップ スキャナーリージョン

  • オーストラリア東部
  • オーストラリア南東部
  • ブラジル南部
  • カナダ中部
  • カナダ東部
  • インド中部
  • 中国北部 3
  • 東アジア
  • 米国東部
  • 米国東部 2
  • フランス中部
  • ドイツ中西部
  • 東日本
  • 韓国中部
  • 米国中央北部
  • 北ヨーロッパ
  • カタール中部
  • 南アフリカ北部
  • 米国中央南部
  • 東南アジア
  • スイス北部
  • アラブ首長国連邦北部
  • 英国南部
  • USGov バージニア
  • 米国中央西部
  • 西ヨーロッパ
  • 米国西部
  • 米国西部 2
  • 米国西部 3

スキャンでサポートされるファイルの種類

スキャン、スキーマ抽出、および該当する場合の分類では、次のファイルの種類がサポートされています。

  • 拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産と列レベルの分類が含まれます。AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
  • 拡張子でサポートされるドキュメント ファイル形式には、スキャンと資産レベルの分類が含まれます:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPSX、PPT、PPTM、PPTM、PPTX、XLC、XLSB、XLSM、XLSX、XLT
  • Microsoft Purview データ マップでは、カスタム ファイル拡張子とカスタム パーサーもサポートされています。

注:

既知の制限事項:

  • Microsoft Purview データ マップ スキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
  • AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
  • スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
  • GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。 現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
  • 区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
    • 列が 1 つだけの区切りファイルは CSV ファイルと判断できないため、スキーマがありません。
    • データ型の検出はサポートされていません。 データ型は、すべての列の "文字列" として一覧表示されます。
    • コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
    • 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。 たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
    • フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。 フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。 ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
  • Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。 インストール ガイドについては、 ページの下部にある Java ランタイム環境に 関するセクションを確認してください。
  • 現在、デルタ形式はサポートされていません。 Azure Data Lake Storage (ADLS Gen2) などのストレージ データ ソースから差分形式を直接スキャンする場合は、「リソース セットについて」で説明されているように、デルタ形式の Parquet ファイルのセットが解析され、リソース セットとして処理されます。 また、パーティション分割に使用される列は、リソース セットのスキーマの一部として認識されません。

スキーマの抽出

スキャン中のスキーマ抽出をサポートするデータ ソースの場合、資産スキーマは列の数で直接切り捨てられるわけではありません。

入れ子になったデータ

現在、入れ子になったデータは JSON コンテンツでのみサポートされています。

システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。

入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。 入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。

分類用のサンプリング データ

Microsoft Purview データ マップ用語では、

  • L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
  • L2 スキャン: 構造化ファイルの種類とデータベース テーブルのスキーマを抽出します
  • L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います

スキャン レベルのカスタマイズの詳細については、こちらをご覧ください。

すべての構造化ファイル形式の場合、Microsoft Purview データ マップ スキャナーは次のようにファイルをサンプリングします。

  • 構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
  • ドキュメント ファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
    • ドキュメント ファイルが 20 MB を超える場合、ディープ スキャンの対象になりません (分類の対象)。 その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
  • 表形式データ ソース (SQL) の場合、上位 128 行をサンプリングします。
  • Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。

リソース セット のファイル サンプリング

フォルダーまたはパーティション ファイルのグループは、システム リソース セット ポリシーまたは顧客定義のリソース セット ポリシーと一致する場合、Microsoft Purview データ マップでリソース セットとして検出されます。 リソース セットが検出された場合、スキャナーは含まれる各フォルダーをサンプリングします。 リソース セットの詳細については 、こちらを参照してください

ファイルの種類別のリソース セットのファイル サンプリング:

  • 区切られたファイル (CSV、PSV、SSV、TSV) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
  • Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
  • その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内でサンプリングされます
  • SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
  • ドキュメント ファイルの種類 - 各ファイルが L3 スキャンされます。 リソース セット パターンは、これらのファイルの種類には適用されません。

次の手順