カスタム固有表現認識で自動ラベル付けを使用する方法

ラベル付けプロセス は、データセットを準備する上で重要な部分です。 このプロセスには多くの時間と労力が必要であるため、自動ラベル付け機能を使用してエンティティに自動的にラベルを付けることができます。 以前にトレーニングしたモデルに基づいて、または GPT モデルを使用して、ジョブの自動ラベル付けを開始できます。 以前にトレーニングしたモデルに基づく自動ラベル付けで、いくつかのドキュメントのラベル付けを開始し、モデルをトレーニングしてから、そのモデルに基づいて他のドキュメントのエンティティ ラベルを生成する自動ラベル付けジョブを作成できます。 GPT を使用した自動ラベル付けでは、モデルの事前トレーニングなしで、すぐに自動ラベル付けジョブをトリガーできます。 この機能を使用すると、エンティティに手動でラベル付けする時間と労力を節約できます。

前提条件

トレーニングしたモデルに基づいて自動ラベル付けを使用するには、次のものが必要です。

自動ラベル付けジョブをトリガーする

トレーニングしたモデルに基づいて自動ラベル付けジョブをトリガーする場合、リソースごとに 1 か月あたり 5,000 個のテキスト レコードの月次制限があります。 これは、同じリソース内のすべてのプロジェクトに同じ制限が適用されることを意味します。

ヒント

テキスト レコードは、(ドキュメント内の文字数/1,000) を上限として計算されます。 たとえば、ドキュメントの文字数が 8,921 文字の場合、テキスト レコードの数は次のようになります。

ceil(8921/1000) = ceil(8.921) は、9 つのテキスト レコードです。

  1. 左側のナビゲーション メニューから、[データの自動ラベル付け] を選択します。

  2. ページの右側にある [アクティビティ ウィンドウ] の下にある [自動ラベル] ボタンを選択します。

    自動タグ付けジョブをトリガーする方法を示すスクリーンショット。

  3. [トレーニングしたモデルに基づく自動ラベル付け] を選択し、[次へ] を選択します。

    自動ラベル付けのモデル選択を示すスクリーンショット。

  4. トレーニング済みのモデルを選択します。 モデルを自動ラベル付けに使用する前に、そのパフォーマンスを確認することをお勧めします。

    自動タグ付け用にトレーニング済みモデルを選択する方法を示すスクリーンショット。

  5. 自動ラベル付けジョブに含めるエンティティを選択します。 既定では、すべてのエンティティが選択されます。 各エンティティの合計ラベル、精度、リコールを確認できます。 自動的にラベル付けされたエンティティの品質を確保するために、適切に動作するエンティティを含めることをお勧めします。

    自動タグ付けジョブに含めるエンティティを示すスクリーンショット。

  6. 自動的にラベル付けするドキュメントを選択します。 各ドキュメントのテキスト レコードの数が表示されます。 1 つ以上のドキュメントを選択すると、選択されたテキスト レコードの数が表示されます。 フィルターからラベル付けされていないドキュメントを選択することをお勧めします。

    注意

    • エンティティに自動的にラベルが付けられたものの、ユーザー定義ラベルが存在する場合は、ユーザー定義ラベルのみが使用され、表示されます。
    • ドキュメント名をクリックすると、ドキュメントを表示できます。

    自動タグ付けジョブに含めるドキュメントを示すスクリーンショット。

  7. [自動ラベル] を選択して、自動ラベル付けジョブをトリガーします。 使用されるモデル、自動ラベル付けジョブに含まれるドキュメントの数、自動的にラベル付けされるテキスト レコードとエンティティの数が表示されます。 自動ラベル付けジョブは、含まれているドキュメントの数に応じて、数秒から数分間かかることがあります。

    自動タグ付けジョブの確認画面を示すスクリーンショット。

自動ラベル付けされたドキュメントを確認する

自動ラベル付けジョブが完了すると、Language Studio の [データのラベル付け] ページに出力ドキュメントが表示されます。 [Review documents with autolabels](自動ラベル付きのドキュメントを確認) を選択すると、[Auto labeled](自動ラベル付き) フィルターが適用されたドキュメントが表示されます。

自動ラベル付けされたドキュメントを示すスクリーンショット

自動的にラベル付けされたエンティティは、点線で表示されます。 これらのエンティティには、自動ラベルを受け入れるか拒否するかを選択できる 2 つのセレクター (チェックマークと "X") があります。

エンティティを受け入れると、点線が実線に変わり、そのラベルはそれ以降のモデル トレーニングに含められ、ユーザー定義ラベルになります。

または、画面の右上隅にある [すべて受け入れる] または [すべて拒否] を使用して、ドキュメント内で自動的にラベル付けされたすべてのエンティティを受け入れるか、または拒否することもできます。

ラベル付けされたエンティティを承諾または拒否したら、[ラベルの保存] を選択して変更を適用します。

注意

  • 自動的にラベル付けされたエンティティを受け入れる前に検証することをお勧めします。
  • 受け入れられなかったラベルはすべて、モデルをトレーニングするときに削除されます。

自動ラベル付けされたエンティティを受け入れる方法と拒否する方法を示すスクリーンショット。

次の手順