Document Intelligence のカスタム ニューラル モデル
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
- パブリック プレビュー バージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメント フィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部
このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0
このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1
カスタム ニューラル モデルまたはニューラル モデルは、レイアウト機能と言語機能を組み合わせて、ドキュメントからラベル付きフィールドを正確に抽出するディープ ラーニング モデル型です。 基本カスタム ニューラル モデルはさまざまな種類のドキュメントを使用してトレーニングされているため、構造化および半構造化ドキュメントからフィールドを抽出する目的でトレーニングするのに適しています。 カスタム ニューラル モデルは、v3.0 以降のモデルで使用できます 次の表に、各カテゴリの一般的なドキュメント型を示します:
ドキュメント | 例 |
---|---|
構造化 | 調査、アンケート |
半構造化 | 請求書、注文書 |
カスタム ニューラル モデルでは、カスタム テンプレート モデルと同じラベル付けの形式と方針を共有します。 現在、カスタム ニューラル モデルでは、カスタム テンプレート モデルでサポートされているフィールドの種類の一部のみがサポートされています。
モデルの機能
重要
API バージョン 2024-02-29-preview
のカスタム ニューラル モデル以降では、重複するフィールドとテーブル セルの信頼度のサポートが追加されました。
現在、カスタム ニューラル モデルでは、キーと値のペア、選択マーク、構造化フィールド (テーブル) がサポートされています。
フォーム フィールド | 選択マーク | 表形式フィールド | シグネチャ | 領域のラベル付け | 重複するフィールド |
---|---|---|---|---|---|
サポートされています | サポート対象 | サポートされています | サポートされていない | サポート対象 1 | サポート対象 2 |
1 カスタム ニューラル モデルのリージョン ラベルは、レイアウト API からの結果を指定したリージョンに使います。 この機能は、値が存在しない場合はトレーニング時にテキストが生成されるテンプレート モデルとは異なります。
2 重複するフィールドは、REST API バージョン 2024-02-29-preview
以降でサポートされています。 重複するフィールドには、いくつかの制限があります。 詳細については、「重複するフィールド」を "参照してください"。
ビルド モード
Build
操作は、"テンプレート" および "ニューラル" カスタム モデルをサポートしています。 以前のバージョンの REST API とクライアント ライブラリでは、"テンプレート" モードと呼ばれる 1 つのビルド モードのみがサポートされていました。
ニューラル モデルでは、同じ情報を含んでいても、ページ構造が異なるドキュメントがサポートされます。 これらのドキュメントの例には、同じ情報を共有する米国 W2 フォームが含まれますが、企業によって外観が異なる場合があります。 詳細については、カスタム モデルのビルド モードに関するセクションを "参照してください"。
重複するフィールド
API バージョン 2024-02-29-preview
以降のリリースでは、カスタム ニューラル モデルで重複するフィールドがサポートされます。
重複するフィールド
API バージョン 2024-07-31-preview 以降のリリースでは、カスタム ニューラル モデルで重複するフィールドがサポートされます。
重複するフィールドを使用するには、データセットに、予想される重複を含むサンプルが少なくとも 1 つ含まれている必要があります。 重複にラベルを付ける場合は、領域のラベル付けを使用して、フィールドごとに (重複を含む) コンテンツの各範囲を指定します。 スタジオでは、フィールドを選択した状態で (値を強調表示して) 重複にラベルを付けることはできません。領域のラベル付けが、フィールドの重複を示す唯一のサポートされているラベル付けツールであるためです。 重複サポートには、以下が含まれます。
- 完全な重複。 2 つの異なるフィールドの同じトークン セットにラベルが付けられます。
- 部分的な重複。 いくつかのトークンは両方のフィールドに属していますが、どちらかのフィールドにのみ属しているトークンがあります。
重複するフィールドには、次のようないくつかの制限があります。
- トークンや単語は、2 つのフィールドとしてのみラベル付けできます。
- テーブル内の重複するフィールドは、テーブル行をまたぐことはできません。
- 重複するフィールドは、データセット内の少なくとも 1 つのサンプルに、それらのフィールドの重複ラベルが含まれている場合にのみ認識できます。
重複するフィールドを使用するには、データセットに重複のラベルを付けて、2024-02-29-preview
以降のバージョンの API でモデルをトレーニングします。
表形式フィールド
API バージョン 2022-06-30-preview 以降のリリースでは、カスタム ニューラル モデルは表形式のフィールド (テーブル) をサポートし、テーブル、行、セルのデータをより確実に分析できるようになりました。
- API バージョン 2022-06-30-preview 以降でトレーニングされたモデルでは、表形式フィールド ラベルが許可されます。
- API バージョン 2022-06-30-preview 以降を使用してカスタム ニューラル モデルで分析されたドキュメントによって、すべてのテーブルで集計された表形式フィールドが生成されます。
- 結果は、分析操作の後に返される
analyzeResult
オブジェクトのdocuments
配列にあります。
表形式フィールドでは、既定でページ間テーブルがサポートされます。
- 複数のページにまたがるテーブルにラベルを付ける場合は、1 つのテーブル内のさまざまなページでそのテーブルの各行にラベルを付けます。
- ベスト プラクティスとして、データセットに予想されるバリエーションのサンプルがいくつか含まれていることを確認します。 たとえば、テーブル全体が 1 つのページ上にあり、テーブルが複数ページにまたがるサンプルを含めます。
表形式フィールドは、テーブルとして認識されないドキュメント内で繰り返し情報を抽出する場合にも便利です。 たとえば、履歴書の実務経験の繰り返しセクションにラベルを付け、表形式フィールドとして抽出できます。
2024-02-29-preview
API 以降、表形式フィールドでテーブル、行、およびセルの信頼度が提供されるようになりました:
固定または動的テーブルでは、次の要素に対する信頼度のサポートが追加されています。
- テーブルの信頼度。テーブル全体がどの程度正確に認識されるかを示す尺度です。
- 行の信頼度。個々の行の認識の尺度です。
- セルの信頼度。個々のセルの認識の尺度です。
推奨される方法は、最初にテーブルから始めて、次に行、そしてセルという順に、トップダウン方式で正確性を確認することです。 テーブル、行、セルの信頼度の詳細については、信頼度と正確性のスコアに関するページを参照してください。
サポートされている言語とロケール
サポートされている言語の完全なリストについては、「言語サポート: カスタム モデル」を参照してください。
サポートされているリージョン
2022 年 10 月 18 日の時点で、Document Intelligence のカスタム ニューラル モデル トレーニングは、今後通知があるまでは次の Azure リージョンでのみ利用可能になります。
- オーストラリア東部
- ブラジル南部
- カナダ中部
- インド中部
- 米国中部
- 東アジア
- 米国東部
- 米国東部 2
- フランス中部
- 東日本
- 米国中南部
- 東南アジア
- 英国南部
- 西ヨーロッパ
- 米国西部 2
- US Gov アリゾナ
- US Gov バージニア州
ヒント
一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。
モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。
ヒント
一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。
モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。
ヒント
一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。
モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。
入力の要件
最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
サポートされているファイル形式:
モデル PDF 画像:
jpeg/jpg
、png
、bmp
、tiff
、heif
Microsoft Office:
Word (docx)、Excel (xlsx)、PowerPoint (pptx)、HTML既読 ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview 以降) 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム ニューラル ✔ ✔ ✱ 現在、Microsoft Office ファイルは他のモデルやバージョンではサポートされません。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、1 インチあたり 150 ドットで約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。
カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1GB
で、最大 10,000 ページです。
ベスト プラクティス
カスタム ニューラル モデルは、いくつかの点でカスタム テンプレート モデルとは異なります。 カスタム テンプレートまたはモデルは、ラベル付けされたデータを抽出するために一貫性のあるビジュアル テンプレートに依存しています。 カスタム ニューラル モデルは、構造化および半構造化のフィールドの抽出をサポートしています。 モデルの種類から選択する場合、ニューラル モデルから始めて、それが機能的なニーズを満たすかどうかを判別するためにテストします。
- バリエーションの処理 - カスタム ニューラル モデルは、1 つのドキュメントの種類のさまざまな形式にまたがって一般化できます。 ベスト プラクティスとしては、ドキュメントの種類のすべてのバリエーションに対して 1 つのモデルを作成してください。 バリエーションごとに少なくとも 5 つのラベル付きサンプルを、トレーニング データセットに追加します。
- フィールドの名前付け - データにラベルを付ける場合、値に関連するフィールドにラベルを付けると、抽出されたキーと値のペアの正確性が向上します。 たとえば、サプライヤー ID を含むフィールド値については、フィールドに supplier_id という名前を付けることを検討してください。 フィールド名は、ドキュメントの言語である必要があります。
- 連続した値のラベル付け - 1 つのフィールドの値トークンまたはワードは次のいずれかである必要があります。
- 他のフィールドとインターリーブしない、自然な読み取り順序の連続したシーケンス内
- 他のどのフィールドもカバーしないリージョン内
- 代表的なデータ - トレーニング ケースにおける値は、多様かつ代表的である必要があります。 たとえば、フィールドに date という名前が付いている場合、このフィールドの値は日付である必要があります。 ランダムな文字列のような合成値は、モデルのパフォーマンスに影響を与える可能性があります。
現時点での制限事項
- カスタム ニューラル モデルでは、ページの境界を越えて分割された値は認識されません。
- カスタム テンプレート モデル用のラベルが付けられたデータセットを使用してカスタム ニューラル モデルをトレーニングする場合、カスタム ニューラルでサポートされていないフィールドの種類は無視されます。
- カスタム ニューラル モデルでは、ビルド操作は 1 か月あたり 20 回までに制限されています。 制限の引き上げが必要な場合は、サポート リクエストをオープンしてください。 詳細については、Document Intelligence サービスのクォータと制限に関するページを参照してください。
Training a model
カスタム ニューラル モデルは、v3.0 以降のモデルで使用できます。
ドキュメントの種類 | REST API | SDK | モデルのラベル付けとテスト |
---|---|---|---|
カスタム ドキュメント | Document Intelligence 3.1 | ドキュメント インテリジェンス SDK | Document Intelligence Studio |
モデルをトレーニングする Build
操作は新しい buildMode
プロパティをサポートしています。カスタム ニューラル モデルをトレーニングするには、buildMode
を neural
に設定します。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
請求
バージョン 2024-07-31-preview
以降では、標準の 30 分より長い期間、カスタム ニューラル モデルをトレーニングできます。 以前のバージョンは、トレーニング インスタンスあたり 30 分で、1 か月あたり合計 20 個の無料トレーニング インスタンスに、制限されています。 現在の 2024-07-31-preview
では、10 時間の無料モデル トレーニングを利用でき、1 つのモデルを最大 10 時間トレーニングできます。
無料の 10 時間すべてを大規模なデータ セットを用いた 1 つのモデルの構築に費やすか、maxTrainingHours
を指定して build
操作の最大期間の値を調整し、複数の構築に利用するかを選択できます。
POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
...,
"maxTrainingHours": 10
}
重要
- さらに多くのニューラル モデルをトレーニングする場合、または 10 時間より長くモデルをトレーニングする場合は、課金料金がかかります。 課金料金について詳しくは、価格に関するページをご覧ください。
- この有料トレーニング サービスにオプトインするには、
maxTrainingHours
を希望する最大時間数に設定します。 予算がないのに、maxTrainingHours
を 10 時間より長く設定して API を呼び出すと、失敗します。 - 各構築にかかる時間は、トレーニング データセットの種類とサイズによって異なるため、課金はニューラル モデルのトレーニングに費やされた実際の時間で計算され、トレーニング ジョブごとの最低時間は 30 分です。
- この有料トレーニング機能により、トレーニング時間を柔軟に調整し、より大きなデータ セットは、より長い期間をかけてトレーニングできます。
GET /documentModels/{myCustomModel}
{
"modelId": "myCustomModel",
"trainingHours": 0.23,
"docTypes": { ... },
...
}
Note
Document Intelligence バージョン v3.1 (2023-07-31)
と v3.0 (2022-08-31)
では、カスタム ニューラル モデルの有料トレーニングは有効にされません。 以前の 2 つのバージョンでは、モデルごとに最大 30 分のトレーニング期間を利用できます。 20 より多くのモデル インスタンスをトレーニングしたい場合は、Azure サポート チケットを作成してトレーニング制限を引き上げることができます。
請求
Document Intelligence バージョン v3.1 (2023-07-31) and v3.0 (2022-08-31)
では、モデルごとに最大 30 分のトレーニング時間と、1 か月あたり最大 20 回の無料トレーニングを利用できます。 20 より多くのモデル インスタンスをトレーニングしたい場合は、Azure サポート チケットを作成してトレーニング制限を引き上げることができます。 Azure サポート チケットについては、[summary
] フィールドに「Increase Document Intelligence custom neural training (TPS) limit
」と入力します。
重要
- トレーニングの制限を増やすと、2 つのカスタム ニューラル モデル トレーニング セッションが、1 つのトレーニング時間と見なされることに注意してください。 トレーニング セッションの数を増やす場合の価格の詳細については、価格ページ* を参照してください。
- トレーニング制限の引き上げのための Azure サポート チケットは、サブスクリプション レベルでなく、リソース レベルでのみ適用できます。 サポート チケットでリソース ID とリージョンを指定して、1 つの Document Intelligence リソースのトレーニング制限の引き上げを要求できます。
30 分より長くモデルをトレーニングしたい場合は、最新バージョン v4.0 (2024-07-31-preview)
で有料トレーニングがサポートされています。 最新バージョンを使うと、より長い時間モデルをトレーニングして、より大きなドキュメントを処理できます。 有料トレーニングについて詳しくは、 v4.0 の課金に関する記事をご覧ください。
請求
Document Intelligence バージョン v3.1 (2023-07-31) and v3.0 (2022-08-31)
では、モデルごとに最大 30 分のトレーニング時間と、1 か月あたり最大 20 回の無料トレーニングを利用できます。 20 より多くのモデル インスタンスをトレーニングしたい場合は、Azure サポート チケットを作成してトレーニング制限を引き上げることができます。 Azure サポート チケットについては、[summary
] フィールドに「Increase Document Intelligence custom neural training (TPS) limit
」と入力します。
重要
- トレーニングの制限を増やすと、2 つのカスタム ニューラル モデル トレーニング セッションが、1 つのトレーニング時間と見なされることに注意してください。 トレーニング セッションの数を増やす場合の価格の詳細については、価格ページを参照してください。
- トレーニング制限の引き上げのための Azure サポート チケットは、サブスクリプション レベルでなく、リソース レベルでのみ適用できます。 サポート チケットでリソース ID とリージョンを指定して、1 つの Document Intelligence リソースのトレーニング制限の引き上げを要求できます。
30 分より長くモデルをトレーニングしたい場合は、最新バージョン v4.0 (2024-07-31)
で有料トレーニングがサポートされています。 最新バージョンを使うと、より長い時間モデルをトレーニングして、より大きなドキュメントを処理できます。 有料トレーニングについて詳しくは、 v4.0 の課金に関する記事をご覧ください。
次のステップ
カスタム モデルの作成について学習します。