Document Intelligence カスタムモデル

[アーティクル]
11/05/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
パブリックプレビューバージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメントフィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA) v3.0 (GA) v2.1 (GA)

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0 v2.1

このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1 | 以前のバージョン: v2.1

このコンテンツの適用対象: v2.1 | 最新バージョン: v4.0 (プレビュー)

Document Intelligence では、高度な機械学習テクノロジを使用してドキュメントを識別し、フォームとドキュメントから情報を検出および抽出し、抽出したデータを構造化 JSON 出力で返します。 Document Intelligence では、ドキュメント分析モデル、事前構築/事前トレーニング済み、またはトレーニング済みのスタンドアロンカスタムモデルを使用できます。

カスタムモデルには、抽出モデルを呼び出す前にドキュメントの種類を識別する必要があるシナリオ用のカスタム分類モデルが含まれるようになりました。分類子モデルは、2023-07-31 (GA) API 以降で使用できます。分類モデルをカスタム抽出モデルと組み合わせて、ビジネスに固有のフォームやドキュメントからフィールドを分析および抽出できます。スタンドアロンのカスタム抽出モデルを組み合わせて、作成済みモデルを作成できます。

カスタムドキュメントモデルの種類

カスタムドキュメントモデルには、カスタムテンプレートまたはカスタムフォームと、カスタムニューラルまたはカスタムドキュメントモデルの 2 種類があります。両方のモデルのラベル付けとトレーニングのプロセスは同じですが、モデルは次のように異なります。

カスタム抽出モデル

カスタム抽出モデルを作成するには、抽出する値を持つドキュメントのデータセットにラベルを付け、ラベル付けされたデータセットに対してモデルをトレーニングします。始めるために必要な同じフォームまたはドキュメントの種類の例は 5 つのみです。

カスタムニューラルモデル

重要

バージョン 4.0 (2024-02-29-preview) API 以降、カスタムニューラルモデルでは、重複するフィールドとテーブル、行、およびセルレベルの信頼度がサポートされるようになりました。

カスタムニューラル (カスタムドキュメント) モデルでは、ディープラーニングモデルと、ドキュメントの大規模なコレクションでトレーニングされたベースモデルを使用します。このモデルは、ラベル付けされたデータセットを使用してモデルをトレーニングするときに、データに合わせて微調整または調整されます。カスタムニューラルモデルは、構造化、半構造化、非構造化ドキュメントからのキーデータフィールドの抽出をサポートしています。 2 つのモデルの種類から選択する場合は、まずニューラルモデルで、それが機能的なニーズを満たすかどうかを判断してください。カスタムドキュメントモデルの詳細については、ニューラルモデルに関するページを参照してください。

カスタムテンプレートモデル

カスタムテンプレートモデルまたはカスタムフォームモデルは、ラベル付けされたデータを抽出するために一貫性のあるビジュアルテンプレートに依存します。ドキュメントの視覚的構造の差異は、モデルの正確性に影響します。アンケートやアプリケーションなどの構造化されたフォームは、一貫したビジュアルテンプレートの例です。

トレーニングセットは、書式設定とレイアウトが静的で、1 つのドキュメントインスタンスから次のインスタンスに固定されている構造化ドキュメントで構成されます。カスタムテンプレートモデルでは、キーと値のペア、選択マーク、テーブル、署名フィールド、リージョンがサポートされます。テンプレートモデルは、いずれかのサポートされている言語のドキュメントでトレーニングできます。詳細については、カスタムテンプレートモデルに関するページを参照してください。

ドキュメントと抽出シナリオの言語がカスタムニューラルモデルをサポートしている場合は、テンプレートモデルに対してカスタムニューラルモデルを使用して精度を向上することをお勧めしています。

ヒント

トレーニングドキュメントによって一貫性のあるビジュアルテンプレートが表示されることを確認するには、セット内の各フォームからユーザーが入力したデータをすべて削除します。空白のフォームの外観が同じである場合は、一貫性のあるビジュアルテンプレートを表します。

詳細については、「カスタムモデルの正確性スコアと信頼度スコアの解釈と改善」を参照してください。

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: `jpeg/jpg`、`png`、`bmp`、`tiff`、`heif`	Microsoft Office: Word (docx)、Excel (xlsx)、PowerPoint (pptx)
読み込み	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview、およびそれ以降)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔

✱ 現在、Microsoft Office ファイルは他のモデルやバージョンではサポートされません。

PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、1 インチあたり 150 ドットで約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

最適なトレーニングデータ

トレーニング入力データは、あらゆる機械学習モデルの基盤です。これによって、モデルの品質、正確性、パフォーマンスが決まります。そのため、Document Intelligence プロジェクト用に、できる限り最高のトレーニング入力データを作成することが重要です。 Document Intelligence のカスタムモデルを使用するときは、ユーザーが独自のトレーニングデータを提供します。モデルを効果的にトレーニングするためのヒントを、いくつか次に示します。

可能な場合は、画像ベースではなくテキストベースの PDF を使用します。画像ベースの PDF を識別する 1 つの方法は、ドキュメント内の特定のテキストを選択してみることです。テキストの画像全体しか選択できない場合、そのドキュメントはテキストベースではなく、画像ベースです。
形式 (JPEG/JPG、PNG、BMP、PDF、または TIFF) 別のサブフォルダーを使用してトレーニングドキュメントを整理します。
使用可能なフィールドがすべて入力済みのフォームを使用します。
各フィールドに異なる値が含まれたフォームを使用します。
画像の品質が低い場合は、より大きなデータセット (5 つを超えるトレーニングドキュメント) を使用します。
1 つのモデルを使用する必要があるか、複数のモデルから作成された 1 つのモデルを使用する必要があるかを判断します。
データセットをフォルダーに分割することを検討してください。その場合、各フォルダーが固有のテンプレートになります。フォルダーごとに 1 つのモデルをトレーニングし、結果として得られたモデルから 1 つのエンドポイントを作成します。 1 つのモデルで複数の形式を分析しようとすると、モデルの正確性が低下する可能性があります。
フォームに形式や改ページのバリエーションがある場合は、データセットをセグメント化して複数のモデルをトレーニングすることを検討してください。カスタムフォームは、一貫性のあるビジュアルテンプレートに依存しています。
形式、ドキュメントの種類、構造を考慮して、バランスの取れたデータセットになっていることを確認します。

ビルドモード

build custom model 操作を行うと、"テンプレート" と "ニューラル" カスタムモデルのサポートが追加されます。以前のバージョンの REST API とクライアントライブラリでは、"テンプレート" モードと呼ばれる 1 つのビルドモードのみがサポートされていました。

テンプレートモデルでは、同じ基本ページ構造を持つ (一貫した外観の) ドキュメント、またはドキュメント内の要素の相対的位置が同じドキュメントのみが受け入れられました。
ニューラルモデルでは、同じ情報を含んでいても、ページ構造が異なるドキュメントがサポートされます。これらのドキュメントの例には、同じ情報を共有する米国の W2 フォームが含まれますが、外観は会社によって異なります。

次の表に、GitHub のビルドモードプログラミング言語 SDK リファレンスとコードサンプルへのリンクを示します。

プログラミング言語	SDK リファレンス	コードサンプル
C#/.NET	DocumentBuildMode 構造体	Sample_BuildCustomModelAsync.cs
Java	DocumentBuildMode クラス	BuildModel.java
JavaScript	DocumentBuildMode タイプ	buildModel.js
Python	DocumentBuildMode 列挙型	sample_build_model.py

モデルの特徴を比較する

次の表では、カスタムテンプレートとカスタムニューラル機能を比較しています。

機能	カスタムテンプレート (フォーム)	カスタムニューラル (ドキュメント)
ドキュメントの構造	テンプレート、フォーム、構造化	構造化、半構造化、非構造化
トレーニング時間	1 分から 5 分	20 分から 1 時間
データの抽出	キーと値のペア、テーブル、選択マーク、座標、署名	キーと値のペア、選択マーク、テーブル
重複するフィールド	サポートされていません	サポートされています
ドキュメントのバリエーション	バリエーションごとにモデルが必要	すべてのバリエーションで 1 つのモデルを使用する
言語のサポート	言語サポートカスタムテンプレート	言語サポートカスタムニューラル

カスタム分類モデル

ドキュメント分類は、2023-07-31 (v3.1 GA) API の Document Intelligence によってサポートされる新しいシナリオです。ドキュメント分類子 API では、分類と分割のシナリオがサポートされています。分類モデルをトレーニングして、アプリケーションでサポートされているさまざまな種類のドキュメントを識別します。分類モデルの入力ファイルには、複数のドキュメントを含め、関連付けられているページ範囲内の各ドキュメントを分類できます。詳細については、「カスタム分類モデル」を参照してください。

Note

2024-02-29-preview API バージョンのドキュメント分類以降、分類用に Office ドキュメントの種類がサポートされるようになりました。この API バージョンでは、分類モデルの増分トレーニングも導入されています。

カスタムモデルツール

ドキュメントインテリジェンス v3.1 以降のモデルでは、次のツール、アプリケーション、ライブラリ、プログラム、およびライブラリがサポートされています：

機能	リソース	モデル ID
カスタムモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK	custom-model-id

カスタムモデルのライフサイクル

カスタムモデルのライフサイクルは、そのトレーニングのために使用する API のバージョンによって変わります。一般提供 (GA) バージョンの API の場合、カスタムモデルのライフサイクルは、そのバージョンと同じになります。 API のバージョンが非推奨になると、そのカスタムモデルは推論に使用できなくなります。プレビューバージョンの API の場合、カスタムモデルのライフサイクルは、その API のプレビューバージョンと同じになります。

ドキュメントインテリジェンス v2.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

Note

カスタムニューラルとカスタムテンプレートのカスタムモデルの種類は、Document Intelligence バージョン v3.1 および v3.0 API で使用できます。

機能	リソース
カスタムモデル	• ドキュメントインテリジェンスラベル付けツール • REST API • クライアントライブラリ SDK •ドキュメントインテリジェンス Docker コンテナー

カスタムモデルの構築

カスタムモデルを使用して、特定のドキュメントまたは一意のドキュメントからデータを抽出します。以下のリソースが必要です。

Azure サブスクリプション。無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

サンプルラベル付けツール

ヒント

強化されたエクスペリエンスと高度なモデル品質のためには、Document Intelligence v3.0 Studio をお試しください。
v3.0 Studio では、v2.1 ラベル付きデータでトレーニングされたすべてのモデルがサポートされます。
v2.1 から v3.0 への移行の詳細については、API 移行ガイドを参照してください。
v3.0 バージョンでの作業を開始するには、REST API または、C#、Java、JavaScript、Python の SDK クイックスタートを "参照" してください。

Document Intelligence サンプルラベル付けツールは Document Intelligence および光学式文字認識 (OCR) 機能の最新の機能をテストできるようにするオープンソースツールです。
カスタムモデルの構築と使用を開始するには、サンプルラベル付けツールのクイックスタートを試してください。

Document Intelligence Studio

Note

Document Intelligence Studio は、v3.1 と v3.0 の API で使用できます。

Document Intelligence Studio ホームページで、[Custom extraction models] (カスタム抽出モデル) を選択します。
[マイプロジェクト] で、[Create a project](プロジェクトの作成) を選択します。
プロジェクトの詳細を指定するフィールドに値を入力します。
[Connect your training data source](トレーニングデータソースを接続) に、Storage アカウントと BLOB コンテナーを追加して、サービスリソースを構成します。
プロジェクトを確認して作成します。
サンプルドキュメントを追加して、カスタムモデルにラベルを付け、ビルドし、テストします。

Document Intelligence Studio を試す

最初のカスタム抽出モデルを作成する詳細なチュートリアルについては、カスタム抽出モデルを作成する方法に関するページを参照してください。

カスタムモデル抽出の概要

次の表は、サポートされているデータ抽出領域を比較しています。

モデル	フォームフィールド	選択マーク	構造化フィールド (テーブル)	署名	領域のラベル付け	重複するフィールド
カスタムテンプレート	✔	✔	✔	✔	✔	該当なし
カスタムニューラル	✔	✔	✔	該当なし	*	✔ (2024-02-29-preview)

表の記号:
✔ — サポート対象
**n/a — 現在は利用不可。
* — モデルによって動作が異なる。テンプレートモデルでは、トレーニング時に合成データが生成されます。ニューラルモデルでは、リージョンで認識される終了テキストが選択されます。

ヒント

2 つのモデルの種類から選択する場合、それが機能的なニーズを満たす場合は、カスタムニューラルモデルから開始します。カスタムニューラルモデルの詳細については、カスタムニューラルに関するページを参照してください。

カスタムモデル開発オプション

次の表では、関連付けられているツールとクライアントライブラリで使用できる機能について説明します。ベストプラクティスとして、ここに記載されている互換性のあるツールを使用することをお勧めします。

ドキュメントの種類	REST API	SDK	モデルのラベル付けとテスト
カスタムテンプレート v 4.0 v3.1 v3.0	Document Intelligence 3.1	ドキュメントインテリジェンス SDK	Document Intelligence Studio
カスタムニューラル v4.0 v3.1 v3.0	Document Intelligence 3.1	ドキュメントインテリジェンス SDK	Document Intelligence Studio
カスタムフォーム v2.1	Document Intelligence 2.1 GA API	ドキュメントインテリジェンス SDK	サンプルラベル付けツール

Note

3.0 API でトレーニングされたカスタムテンプレートモデルでは、OCR エンジンの機能強化による 2.1 API のいくつかの改善点があります。 2.1 API を使用してカスタムテンプレートモデルをトレーニングするために使用されるデータセットは、3.0 API を使用して新しいモデルをトレーニングするために引き続き使用できます。

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
サポートされているファイル形式は、JPEG/JPG、PNG、BMP、TIFF、および PDF (テキスト埋め込みまたはスキャン済み) です。文字の抽出と位置に関するエラーが発生する可能性を排除するには、テキストが埋め込まれている PDF が最適です。
PDF ファイルと TIFF ファイルの場合は、最大 2,000 ページを処理できます。 Free レベルのサブスクリプションでは、最初の 2 ページだけが処理されます。
ファイルサイズは、有料 (S0) レベルでは 500 MB 未満、Free (F0) レベルでは 4 MB 未満である必要があります。
画像の寸法は、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF の寸法は、17 x 17 インチまでで、Legal または A3 サイズ以下の用紙に対応します。
トレーニングデータの合計サイズは、500 ページ以下です。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
ヒント

トレーニングデータ:
- 可能であれば、画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。スキャンした PDF は画像として処理されます。
- 文書ごとにフォームのインスタンスを 1 つだけ指定してください。
- 入力フォームの場合は、すべてのフィールドに入力されている例を使用します。
- 各フィールドに異なる値が含まれたフォームを使用します。
- フォームイメージの品質が低い場合は、より大きなデータセットを使用します。たとえば、10 ～ 15 のイメージを使用します。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、以下を 参照してください。言語サポート—のカスタムモデルページ。

次のステップ

Document Intelligence サンプルラベル付けツールを使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

次の方法で共有

Document Intelligence カスタムモデル

カスタムドキュメントモデルの種類

カスタム抽出モデル

カスタムニューラルモデル

カスタムテンプレートモデル

入力の要件

最適なトレーニングデータ

ビルドモード

モデルの特徴を比較する

カスタム分類モデル

カスタムモデルツール

カスタムモデルのライフサイクル

カスタムモデルの構築

サンプルラベル付けツール

Document Intelligence Studio

カスタムモデル抽出の概要

カスタムモデル開発オプション

サポートされている言語とロケール

次のステップ

フィードバック

その他のリソース

次の方法で共有

Document Intelligence カスタム モデル

カスタム ドキュメント モデルの種類

カスタム抽出モデル

カスタム ニューラル モデル

カスタム テンプレート モデル

入力の要件

最適なトレーニング データ

ビルド モード

モデルの特徴を比較する

カスタム分類モデル

カスタム モデル ツール

カスタム モデルのライフ サイクル

カスタム モデルの構築

サンプル ラベル付けツール

Document Intelligence Studio

カスタム モデル抽出の概要

カスタム モデル開発オプション

サポートされている言語とロケール

次のステップ

フィードバック

その他のリソース

Document Intelligence カスタムモデル

カスタムドキュメントモデルの種類

カスタムニューラルモデル

カスタムテンプレートモデル

最適なトレーニングデータ

ビルドモード

カスタムモデルツール

カスタムモデルのライフサイクル

カスタムモデルの構築

サンプルラベル付けツール

カスタムモデル抽出の概要

カスタムモデル開発オプション