ラベル付きデータセットを構築するためのヒント

このコンテンツの適用対象:checkmark v4.0 (プレビュー) | 以前のバージョン: 青のチェックマーク v3.1 (GA) 青のチェックマーク v3.0 (GA)

このコンテンツの適用対象: checkmark v3.1 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (プレビュー) | 以前のバージョン: 青のチェックマーク v3.0

このコンテンツの適用対象: checkmark v3.0 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (プレビュー) 紫のチェックマーク v3.1

重要

ラベル付きデータセットの生成に関するベスト プラクティスは、カスタム テンプレートとカスタム ニューラル モデルにのみ適用されます。カスタム生成については、カスタム生成に関する記事を参照してください

この記事では、Document Intelligence Studio でカスタム モデル データセットにラベルを付けるための最適な方法について説明します。 多数のラベル、長いドキュメント、または構造が異なるドキュメントがある場合、ドキュメントのラベル付けには時間がかかる場合があります。 これらのヒントは、より効率的にドキュメントにラベルを付けるのに役立ちます。

動画: カスタム ラベルのベスト プラクティス

  • 次の動画は、高い精度でカスタム モデルを構築する上で役立つ 2 つのプレゼンテーションの 2 つ目です (1 つ目では、「バランスの取れたデータ セットの作成方法」を確認します)。

  • 選択したドキュメントのラベル付けのベスト プラクティスを確認します。 意味的に関連があり、一貫性があるようにラベルを付けると、モデル パフォーマンスが向上するはずです。

ラベル付けする特定の単語を見つける必要があることはわかっているのに、ドキュメント内の場所がわからない場合、Studio にはインスタンスの検索ボックスが含まれるようになりました。 単語または語句を検索し、ドキュメント内の特定のセクションに移動して、出現箇所にラベルを付けるだけです。

自動ラベル テーブル

テーブルに多数の行や高密度テキストがある場合、ラベル付けが困難な場合があります。 レイアウト テーブルで必要な結果が抽出された場合は、その結果を使用し、ラベル付けプロセスをスキップする必要があります。 レイアウト テーブルが必要ではない場合は、まず、レイアウト抽出の値からテーブル フィールドを生成することから始めることができます。 まず、ページのテーブル アイコンを選択し、自動ラベル ボタンを選択します。 必要に応じて値を編集できます。 自動ラベルでは現在、単一ページ テーブルのみがサポートされています。

Shift キーを押しながら選択

範囲内の各単語にマークを付けるのではなく、大きなテキスト範囲にラベルを付ける場合は、単語を選択するときに Shift キーを押してラベル付けの時間を短縮し、テキストの範囲内の単語を逃さないようにします。

領域のラベル付け

より大きな範囲のテキストにラベルを付ける 2 つ目のオプションは、領域のラベル付けを使用することです。 領域のラベル付けを使用すると、OCR の結果がトレーニング時に値に入力されます。 Shift キーの選択と領域のラベル付けの違いは、Shift キーのラベル付けアプローチによって提供される視覚的なフィードバックのみにあります。

重なり合うフィールドにラベルを付ける

フィールドとテーブル セルでは、重なり合うフィールドがサポートされています。 重なり合うフィールドが分析結果に含まれていると想定される場合は、特定のフィールドの重なりにラベルが付けられたサンプルを、トレーニング データセットに少なくとも 1 つ追加する必要があります。 重なり合うフィールドにラベルを付けるには、領域ラベル付け機能を使用して、各フィールドの領域を選択します。 完全な重なりと部分的な重なりの両方がサポートされています。 ドキュメント内の 1 つの単語には、2 つのフィールドとしてのみラベルを付けることができます。

フィールド サブタイプ

フィールドを作成するときは、後処理を最小限に抑えるために適切なサブタイプを選択します。たとえば、日付の dmy オプションを選択して、dd-mm-yyyy 形式で値を抽出します。

次のステップ