Document Intelligence のカスタムニューラルモデル

[アーティクル]
10/17/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
パブリックプレビューバージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメントフィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA) v3.0 (GA)

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0

このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1

カスタムニューラルモデルまたはニューラルモデルは、レイアウト機能と言語機能を組み合わせて、ドキュメントからラベル付きフィールドを正確に抽出するディープラーニングモデル型です。基本カスタムニューラルモデルはさまざまな種類のドキュメントを使用してトレーニングされているため、構造化および半構造化ドキュメントからフィールドを抽出する目的でトレーニングするのに適しています。カスタムニューラルモデルは、v3.0 以降のモデルで使用できます次の表に、各カテゴリの一般的なドキュメント型を示します：

ドキュメント	例
構造化	調査、アンケート
半構造化	請求書、注文書

カスタムニューラルモデルでは、カスタムテンプレートモデルと同じラベル付けの形式と方針を共有します。現在、カスタムニューラルモデルでは、カスタムテンプレートモデルでサポートされているフィールドの種類の一部のみがサポートされています。

モデルの機能

重要

API バージョン 2024-02-29-preview のカスタムニューラルモデル以降では、重複するフィールドとテーブルセルの信頼度のサポートが追加されました。

現在、カスタムニューラルモデルでは、キーと値のペア、選択マーク、構造化フィールド (テーブル) がサポートされています。

フォームフィールド	選択マーク	表形式フィールド	シグネチャ	領域のラベル付け	重複するフィールド
サポートされています	サポート対象	サポートされています	サポートされていない	サポート対象 ¹	サポート対象 ²

¹ カスタムニューラルモデルのリージョンラベルは、レイアウト API からの結果を指定したリージョンに使います。この機能は、値が存在しない場合はトレーニング時にテキストが生成されるテンプレートモデルとは異なります。
² 重複するフィールドは、REST API バージョン 2024-02-29-preview 以降でサポートされています。重複するフィールドには、いくつかの制限があります。詳細については、「重複するフィールド」を "参照してください"。

ビルドモード

Build 操作は、"テンプレート" および "ニューラル" カスタムモデルをサポートしています。以前のバージョンの REST API とクライアントライブラリでは、"テンプレート" モードと呼ばれる 1 つのビルドモードのみがサポートされていました。

ニューラルモデルでは、同じ情報を含んでいても、ページ構造が異なるドキュメントがサポートされます。これらのドキュメントの例には、同じ情報を共有する米国 W2 フォームが含まれますが、企業によって外観が異なる場合があります。詳細については、カスタムモデルのビルドモードに関するセクションを "参照してください"。

重複するフィールド

API バージョン 2024-02-29-preview 以降のリリースでは、カスタムニューラルモデルで重複するフィールドがサポートされます。

重複するフィールド

API バージョン 2024-07-31-preview 以降のリリースでは、カスタムニューラルモデルで重複するフィールドがサポートされます。

重複するフィールドを使用するには、データセットに、予想される重複を含むサンプルが少なくとも 1 つ含まれている必要があります。重複にラベルを付ける場合は、領域のラベル付けを使用して、フィールドごとに (重複を含む) コンテンツの各範囲を指定します。スタジオでは、フィールドを選択した状態で (値を強調表示して) 重複にラベルを付けることはできません。領域のラベル付けが、フィールドの重複を示す唯一のサポートされているラベル付けツールであるためです。重複サポートには、以下が含まれます。

完全な重複。 2 つの異なるフィールドの同じトークンセットにラベルが付けられます。
部分的な重複。いくつかのトークンは両方のフィールドに属していますが、どちらかのフィールドにのみ属しているトークンがあります。

重複するフィールドには、次のようないくつかの制限があります。

トークンや単語は、2 つのフィールドとしてのみラベル付けできます。
テーブル内の重複するフィールドは、テーブル行をまたぐことはできません。
重複するフィールドは、データセット内の少なくとも 1 つのサンプルに、それらのフィールドの重複ラベルが含まれている場合にのみ認識できます。

重複するフィールドを使用するには、データセットに重複のラベルを付けて、2024-02-29-preview 以降のバージョンの API でモデルをトレーニングします。

表形式フィールド

API バージョン 2022-06-30-preview 以降のリリースでは、カスタムニューラルモデルは表形式のフィールド (テーブル) をサポートし、テーブル、行、セルのデータをより確実に分析できるようになりました。

API バージョン 2022-06-30-preview 以降でトレーニングされたモデルでは、表形式フィールドラベルが許可されます。
API バージョン 2022-06-30-preview 以降を使用してカスタムニューラルモデルで分析されたドキュメントによって、すべてのテーブルで集計された表形式フィールドが生成されます。
結果は、分析操作の後に返される analyzeResult オブジェクトの documents 配列にあります。

表形式フィールドでは、既定でページ間テーブルがサポートされます。

複数のページにまたがるテーブルにラベルを付ける場合は、1 つのテーブル内のさまざまなページでそのテーブルの各行にラベルを付けます。
ベストプラクティスとして、データセットに予想されるバリエーションのサンプルがいくつか含まれていることを確認します。たとえば、テーブル全体が 1 つのページ上にあり、テーブルが複数ページにまたがるサンプルを含めます。

表形式フィールドは、テーブルとして認識されないドキュメント内で繰り返し情報を抽出する場合にも便利です。たとえば、履歴書の実務経験の繰り返しセクションにラベルを付け、表形式フィールドとして抽出できます。

2024-02-29-preview API 以降、表形式フィールドでテーブル、行、およびセルの信頼度が提供されるようになりました:

固定または動的テーブルでは、次の要素に対する信頼度のサポートが追加されています。
- テーブルの信頼度。テーブル全体がどの程度正確に認識されるかを示す尺度です。
- 行の信頼度。個々の行の認識の尺度です。
- セルの信頼度。個々のセルの認識の尺度です。
推奨される方法は、最初にテーブルから始めて、次に行、そしてセルという順に、トップダウン方式で正確性を確認することです。テーブル、行、セルの信頼度の詳細については、信頼度と正確性のスコアに関するページを参照してください。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、「言語サポート: カスタムモデル」を参照してください。

サポートされているリージョン

2022 年 10 月 18 日の時点で、Document Intelligence のカスタムニューラルモデルトレーニングは、今後通知があるまでは次の Azure リージョンでのみ利用可能になります。

オーストラリア東部
ブラジル南部
カナダ中部
インド中部
米国中部
東アジア
米国東部
米国東部 2
フランス中部
東日本
米国中南部
東南アジア
英国南部
西ヨーロッパ
米国西部 2
US Gov アリゾナ
US Gov バージニア州

ヒント

一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。

モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。

ヒント

一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。

モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。

ヒント

一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。

モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: jpeg/`jpg`、`png`、`bmp`、`tiff`、`heif`	Microsoft Office: Word (docx)、Excel (xlsx)、PowerPoint (pptx)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview 以降)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタムニューラル	✔	✔

✱ 現在、Microsoft Office ファイルは他のモデルやバージョンではサポートされません。

PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、1 インチあたり 150 ドットで約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

ベストプラクティス

カスタムニューラルモデルは、いくつかの点でカスタムテンプレートモデルとは異なります。カスタムテンプレートまたはモデルは、ラベル付けされたデータを抽出するために一貫性のあるビジュアルテンプレートに依存しています。カスタムニューラルモデルは、構造化および半構造化のフィールドの抽出をサポートしています。モデルの種類から選択する場合、ニューラルモデルから始めて、それが機能的なニーズを満たすかどうかを判別するためにテストします。

バリエーションの処理 - カスタムニューラルモデルは、1 つのドキュメントの種類のさまざまな形式にまたがって一般化できます。ベストプラクティスとしては、ドキュメントの種類のすべてのバリエーションに対して 1 つのモデルを作成してください。バリエーションごとに少なくとも 5 つのラベル付きサンプルを、トレーニングデータセットに追加します。
フィールドの名前付け - データにラベルを付ける場合、値に関連するフィールドにラベルを付けると、抽出されたキーと値のペアの正確性が向上します。たとえば、サプライヤー ID を含むフィールド値については、フィールドに supplier_id という名前を付けることを検討してください。フィールド名は、ドキュメントの言語である必要があります。
連続した値のラベル付け - 1 つのフィールドの値トークンまたはワードは次のいずれかである必要があります。
- 他のフィールドとインターリーブしない、自然な読み取り順序の連続したシーケンス内
- 他のどのフィールドもカバーしないリージョン内
代表的なデータ - トレーニングケースにおける値は、多様かつ代表的である必要があります。たとえば、フィールドに date という名前が付いている場合、このフィールドの値は日付である必要があります。ランダムな文字列のような合成値は、モデルのパフォーマンスに影響を与える可能性があります。

現時点での制限事項

カスタムニューラルモデルでは、ページの境界を越えて分割された値は認識されません。
カスタムテンプレートモデル用のラベルが付けられたデータセットを使用してカスタムニューラルモデルをトレーニングする場合、カスタムニューラルでサポートされていないフィールドの種類は無視されます。
カスタムニューラルモデルでは、ビルド操作は 1 か月あたり 20 回までに制限されています。制限の引き上げが必要な場合は、サポートリクエストをオープンしてください。詳細については、Document Intelligence サービスのクォータと制限に関するページを参照してください。

Training a model

カスタムニューラルモデルは、v3.0 以降のモデルで使用できます。

ドキュメントの種類	REST API	SDK	モデルのラベル付けとテスト
カスタムドキュメント	Document Intelligence 3.1	ドキュメントインテリジェンス SDK	Document Intelligence Studio

モデルをトレーニングする Build 操作は新しい buildMode プロパティをサポートしています。カスタムニューラルモデルをトレーニングするには、buildMode を neural に設定します。

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

請求

バージョン 2024-07-31-preview 以降では、標準の 30 分より長い期間、カスタムニューラルモデルをトレーニングできます。以前のバージョンは、トレーニングインスタンスあたり 30 分で、1 か月あたり合計 20 個の無料トレーニングインスタンスに、制限されています。現在の 2024-07-31-preview では、10 時間の無料モデルトレーニングを利用でき、1 つのモデルを最大 10 時間トレーニングできます。

無料の 10 時間すべてを大規模なデータセットを用いた 1 つのモデルの構築に費やすか、maxTrainingHours を指定して build 操作の最大期間の値を調整し、複数の構築に利用するかを選択できます。

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

重要

さらに多くのニューラルモデルをトレーニングする場合、または 10 時間より長くモデルをトレーニングする場合は、課金料金がかかります。課金料金について詳しくは、価格に関するページをご覧ください。
この有料トレーニングサービスにオプトインするには、maxTrainingHours を希望する最大時間数に設定します。予算がないのに、maxTrainingHours を 10 時間より長く設定して API を呼び出すと、失敗します。
各構築にかかる時間は、トレーニングデータセットの種類とサイズによって異なるため、課金はニューラルモデルのトレーニングに費やされた実際の時間で計算され、トレーニングジョブごとの最低時間は 30 分です。
この有料トレーニング機能により、トレーニング時間を柔軟に調整し、より大きなデータセットは、より長い期間をかけてトレーニングできます。


GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Note

Document Intelligence バージョン v3.1 (2023-07-31) と v3.0 (2022-08-31) では、カスタムニューラルモデルの有料トレーニングは有効にされません。以前の 2 つのバージョンでは、モデルごとに最大 30 分のトレーニング期間を利用できます。 20 より多くのモデルインスタンスをトレーニングしたい場合は、Azure サポートチケットを作成してトレーニング制限を引き上げることができます。

請求

Document Intelligence バージョン v3.1 (2023-07-31) and v3.0 (2022-08-31) では、モデルごとに最大 30 分のトレーニング時間と、1 か月あたり最大 20 回の無料トレーニングを利用できます。 20 より多くのモデルインスタンスをトレーニングしたい場合は、Azure サポートチケットを作成してトレーニング制限を引き上げることができます。 Azure サポートチケットについては、[summary] フィールドに「Increase Document Intelligence custom neural training (TPS) limit」と入力します。

重要

トレーニングの制限を増やすと、2 つのカスタムニューラルモデルトレーニングセッションが、1 つのトレーニング時間と見なされることに注意してください。トレーニングセッションの数を増やす場合の価格の詳細については、価格ページ* を参照してください。
トレーニング制限の引き上げのための Azure サポートチケットは、サブスクリプションレベルでなく、リソースレベルでのみ適用できます。サポートチケットでリソース ID とリージョンを指定して、1 つの Document Intelligence リソースのトレーニング制限の引き上げを要求できます。

30 分より長くモデルをトレーニングしたい場合は、最新バージョン v4.0 (2024-07-31-preview) で有料トレーニングがサポートされています。最新バージョンを使うと、より長い時間モデルをトレーニングして、より大きなドキュメントを処理できます。有料トレーニングについて詳しくは、 v4.0 の課金に関する記事をご覧ください。

請求

重要

トレーニングの制限を増やすと、2 つのカスタムニューラルモデルトレーニングセッションが、1 つのトレーニング時間と見なされることに注意してください。トレーニングセッションの数を増やす場合の価格の詳細については、価格ページを参照してください。
トレーニング制限の引き上げのための Azure サポートチケットは、サブスクリプションレベルでなく、リソースレベルでのみ適用できます。サポートチケットでリソース ID とリージョンを指定して、1 つの Document Intelligence リソースのトレーニング制限の引き上げを要求できます。

30 分より長くモデルをトレーニングしたい場合は、最新バージョン v4.0 (2024-07-31) で有料トレーニングがサポートされています。最新バージョンを使うと、より長い時間モデルをトレーニングして、より大きなドキュメントを処理できます。有料トレーニングについて詳しくは、 v4.0 の課金に関する記事をご覧ください。

次のステップ

カスタムモデルの作成について学習します。

カスタムモデルを作成するカスタムモデルを作成する

次の方法で共有

Document Intelligence のカスタムニューラルモデル

モデルの機能

ビルドモード

重複するフィールド

重複するフィールド

表形式フィールド

サポートされている言語とロケール

サポートされているリージョン

入力の要件

ベストプラクティス

現時点での制限事項

Training a model

請求

請求

請求

次のステップ

フィードバック

その他のリソース

次の方法で共有

Document Intelligence のカスタム ニューラル モデル

モデルの機能

ビルド モード

重複するフィールド

重複するフィールド

表形式フィールド

サポートされている言語とロケール

サポートされているリージョン

入力の要件

ベスト プラクティス

現時点での制限事項

Training a model

請求

請求

請求

次のステップ

フィードバック

その他のリソース

Document Intelligence のカスタムニューラルモデル

ビルドモード

ベストプラクティス