ベストプラクティス: ラベル付きデータセットの生成

[アーティクル]
09/03/2024

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA) v3.0 (GA)

重要

ラベル付きデータセットの生成に関するベストプラクティスは、カスタムテンプレートとカスタムニューラルモデルにのみ適用されます。カスタム生成については、カスタム生成に関する記事を参照してください

カスタムモデル (テンプレートとニューラル) でモデルをトレーニングするには、少なくとも 5 つのドキュメントからなるラベル付けされたデータセットが必要です。ラベル付けされたデータセットの品質は、トレーニング済みモデルの精度に影響します。このガイドでは、多様なデータセットを集めて精度の高いモデルを生成する方法について詳しく説明し、ドキュメントのラベル付けに関するベストプラクティスを示します。

ラベル付けされたデータセットの構成要素を理解する

ラベル付けされたデータセットは、いくつかのファイルで構成されます。

サンプルドキュメント (通常は PDF または画像) のセットを自分で用意します。モデルをトレーニングするには、少なくとも 5 つのドキュメントが必要です。
さらに、ラベル付けプロセスによって次のファイルが生成されます。
- fields.json ファイルは、最初のフィールドが追加されたときに作成されます。 fields.json ファイルはトレーニングデータセット全体に対して 1 つ存在し、フィールドリストにはフィールド名および関連するサブフィールドと型が含まれています。
- 各ドキュメントは Studio で Layout API を使用して実行されます。データセット内の各サンプルファイルのレイアウト応答が {file}.ocr.json として追加されます。レイアウト応答は、特定のテキスト範囲がラベル付けされたときに、フィールドラベルを生成するために使用されます。
- {file}.labels.json ファイルは、ドキュメント内のフィールドがラベル付けされたときに作成または更新されます。ラベルファイルには、テキストの範囲と、ユーザーが特定のフィールドの値として追加する各テキスト範囲のレイアウト出力からの関連するポリゴンが含まれます。

ビデオ: カスタムラベルのヒントとポインター

次の動画は、高い精度でカスタムモデルを構築する上で役立つ 2 つのプレゼンテーションの 1 つ目です (2 つ目のプレゼンテーションでは、ドキュメントのラベル付けベストプラクティスを確認します)。
バランスの取れたデータセットを作成し、ラベル付けに適したドキュメントを選択する方法を確認します。このプロセスを経ると、高品質のモデルを構築できるようになります。

バランスの取れたデータセットを作成する

ラベル付けを開始する前に、ドキュメントのいくつかの異なるサンプルを参照して、ラベル付けされたデータセットで使用するサンプルを特定することをお勧めします。バランスの取れたデータセットは、ドキュメントに出現すると予想されるすべての典型的なバリエーションを表しています。バランスの取れたデータセットを作成すると、可能な限り高い精度のモデルが作成されます。考慮すべきいくつかの例を次に示します。

ドキュメント形式: デジタルおよびスキャン済みの両方のドキュメントを分析する場合は、種類ごとにいくつかの例をトレーニングデータセットに追加します。
バリエーション (テンプレートモデル): データセットをフォルダーに分割し、バリエーションごとにモデルをトレーニングすることを検討してください。構造またはレイアウトを含むバリエーションは、異なるモデルに分割する必要があります。そのうえで、個々のモデルから 1 つの構成済みモデルを作成できます。
バリエーション (ニューラルモデル): データセットに管理可能なバリエーションのセット (約 15 個以下) がある場合は、さまざまなバリエーションごとにいくつかのサンプルを含む 1 つのデータセットを作成し、1 つのモデルをトレーニングします。テンプレートバリエーションの数が 15 を超える場合は、複数のモデルをトレーニングし、それらを一緒に構成します。
テーブル: 行数が可変のテーブルを含むドキュメントの場合は、トレーニングデータセットも行数が異なるドキュメントを表していることを確認します。
複数ページテーブル: テーブルが複数のページにまたがる場合は、1 つのテーブルにラベルを付けます。予想されるバリエーションが表現されたトレーニングデータセットにドキュメントを追加します。つまり、1 ページのみのテーブルを含むドキュメントと、すべての行がラベル付けされた 2 ページ以上にまたがるテーブルを含むドキュメントです。
省略可能なフィールド: データセットに省略可能なフィールドを含むドキュメントが含まれている場合は、オプションが表現されたいくつかのドキュメントがトレーニングデータセットに含まれていることを検証します。

最初にフィールドを識別する

時間を取って、データセットでラベル付けする予定の各フィールドを特定します。省略可能なフィールドに注意してください。サポートされている型に最も一致するラベルを使用してフィールドを定義します。

フィールドを定義するには、次のガイドラインを使用します。

カスタムニューラルモデルの場合は、意味的に関連がある名前をフィールドに使用します。たとえば、抽出される値が Effective Date の場合は、date1 のような汎用的な名前ではなく、effective_date または EffectiveDate と名前を付けます。
理想的には、Pascal またはキャメルケースを使ってフィールドに名前を付けます。
値が視覚的に繰り返される構造の一部であり、1 つの値のみが必要な場合は、テーブルとしてラベルを付け、後処理中に必要な値を抽出します。
複数のページにまたがる表形式フィールドの場合は、フィールドを 1 つのテーブルとして定義し、ラベルを付けます。

注意

カスタムニューラルモデルは、カスタムテンプレートモデルと同じラベル付けの形式と方針を共有します。現在、カスタムニューラルモデルでは、カスタムテンプレートモデルでサポートされているフィールドの種類の一部のみがサポートされています。

モデルの機能

現在、カスタムニューラルモデルでは、キーと値のペア、構造化フィールド (テーブル)、選択マークのみがサポートされています。

モデルの種類	フォームフィールド	選択マーク	表形式フィールド	署名	リージョン	重複するフィールド
カスタムニューラル	✔️サポート対象	✔️サポート対象	✔️サポート対象	サポートされていない	✔️サポート対象¹	✔️サポート対象²
カスタムテンプレート	✔️サポート対象	✔️サポート対象	✔️サポート対象	✔️サポート対象	✔️サポート対象	サポートされていない

¹ 領域ラベル付けの実装は、テンプレートとニューラルのモデルによって異なります。テンプレートモデルの場合、トレーニングプロセスでは、ラベル付けされた領域にテキストが見つからない場合、トレーニング時に合成データが挿入されます。ニューラルモデルでは、合成テキストは挿入されず、認識されたテキストはそのまま使用されます。
² 重複するフィールドは、API バージョン 2024-02-29-preview 以降でサポートされています。重複するフィールドには、いくつかの制限があります。詳しくは、「重複するフィールド」をご覧ください。

表形式フィールド

表形式フィールド (テーブル) は、API バージョン 2022-06-30-preview 以降のカスタムニューラルモデルでサポートされています。 API バージョン 2022-06-30-preview 以降でトレーニングされたモデルでは、表形式フィールドラベルが受け入れられます。API バージョン 2022-06-30-preview 以降のモデルで分析されたドキュメントの場合は、analyzeResult オブジェクトの結果の documents セクション内での出力において、表形式フィールドが生成されます。

表形式フィールドでは、既定でページ間テーブルがサポートされます。複数のページにまたがるテーブルにラベルを付ける場合は、1 つのテーブル内のさまざまなページでそのテーブルの各行にラベルを付けます。ベストプラクティスとして、データセットに予想されるバリエーションのサンプルがいくつか含まれていることを確認します。たとえば、テーブル全体が 1 つのページ上にあるサンプルと、2 ページ以上にまたがるテーブルのサンプルの両方を含めます。

表形式フィールドは、テーブルとして認識されないドキュメント内で繰り返し情報を抽出する場合にも便利です。たとえば、履歴書の実務経験の繰り返しセクションにラベルを付け、表形式フィールドとして抽出できます。

Note

テーブルフィールドがラベル付けされると、応答の documents セクションの一部として抽出されます。応答には、レイアウトモデルによってドキュメントから抽出されたテーブルを含む tables セクションも含まれます。フィールドにテーブルとしてラベルを付けた場合は、応答のドキュメントセクションでフィールドを探します。

ラベル付けのガイドライン

値にラベルを付ける必要があります。 周囲のテキストは含めないでください。たとえば、チェックボックスにラベルを付けるときは、ドキュメント内で yes または no のテキストにラベルを付けるのではなく、selectionYes や selectionNo のように、チェックボックスの選択を示すようにフィールドに名前を付けます。
インターリーブフィールド値を指定しないでください。 1 つのフィールドの単語または領域の値、またはその両方は、自然な読み取り順序の連続したシーケンスである必要があります。
一貫性のあるラベル付け。ドキュメント内の複数のコンテキストに値が表示される場合は、ドキュメント間で一貫して同じコンテキストを選択して値にラベルを付けます。
視覚的に繰り返されるデータ。明示的なテーブルだけでなく、視覚的に繰り返される情報のグループがテーブルでサポートされます。明示的なテーブルは、分析されたドキュメントのテーブルセクションでレイアウト出力の一部として識別され、テーブルとしてラベル付けする必要はありません。情報が視覚的に繰り返され、レイアウト応答の一部としてのテーブルとして識別されない場合にのみ、テーブルフィールドにラベルを付けます。例として、繰り返される履歴書の職歴セクションがあります。
領域のラベル付け (カスタムテンプレート)。特定の領域にラベルを付けると、値が存在しない場合に定義することができます。値が省略可能な場合は、領域にラベル付けしていないサンプルドキュメントをいくつか残しておきます。領域にラベルを付けるときは、周囲のテキストをラベルに含めないでください。
重複するフィールド (カスタムニューラル)。領域のラベル付けを使用して、フィールドに重複するラベルを付けます。トレーニングデータセット内でフィールドを重複させる方法を説明するサンプルが少なくとも 1 つ用意されていることを確認します。

次のステップ

カスタムモデルをトレーニングする:

モデルをトレーニングする方法
REST API を表示：

Document Intelligence API v4.0:2024-07-31-preview

ドキュメントインテリジェンス API v3.1:2023-07-31 (GA)

次の方法で共有

ベストプラクティス: ラベル付きデータセットの生成

ラベル付けされたデータセットの構成要素を理解する

ビデオ: カスタムラベルのヒントとポインター

バランスの取れたデータセットを作成する

最初にフィールドを識別する

モデルの機能

表形式フィールド

ラベル付けのガイドライン

次のステップ

フィードバック

その他のリソース

次の方法で共有

ベスト プラクティス: ラベル付きデータセットの生成

ラベル付けされたデータセットの構成要素を理解する

ビデオ: カスタム ラベルのヒントとポインター

バランスの取れたデータセットを作成する

最初にフィールドを識別する

モデルの機能

表形式フィールド

ラベル付けのガイドライン

次のステップ

フィードバック

その他のリソース

ベストプラクティス: ラベル付きデータセットの生成

ビデオ: カスタムラベルのヒントとポインター