カスタム固有表現認識で自動ラベル付けを使用する方法

[アーティクル]
09/03/2024

ラベル付けプロセスは、データセットを準備する上で重要な部分です。このプロセスには多くの時間と労力が必要であるため、自動ラベル付け機能を使用してエンティティに自動的にラベルを付けることができます。以前にトレーニングしたモデルに基づいて、または GPT モデルを使用して、ジョブの自動ラベル付けを開始できます。以前にトレーニングしたモデルに基づく自動ラベル付けで、いくつかのドキュメントのラベル付けを開始し、モデルをトレーニングしてから、そのモデルに基づいて他のドキュメントのエンティティラベルを生成する自動ラベル付けジョブを作成できます。 GPT を使用した自動ラベル付けでは、モデルの事前トレーニングなしで、すぐに自動ラベル付けジョブをトリガーできます。この機能を使用すると、エンティティに手動でラベル付けする時間と労力を節約できます。

トレーニングしたモデルに基づいて自動ラベル付けを使用するには、次のものが必要です。

構成済みの Azure Blob Storage アカウントで正常に作成されたプロジェクト
ストレージアカウントにアップロードされたテキストデータ。
ラベルの付いたデータ
正常にトレーニングされたモデル

自動ラベル付けジョブをトリガーする

トレーニングしたモデルに基づく自動ラベル付け
GPT を使用した自動ラベル付け

トレーニングしたモデルに基づいて自動ラベル付けジョブをトリガーする場合、リソースごとに 1 か月あたり 5,000 個のテキストレコードの月次制限があります。これは、同じリソース内のすべてのプロジェクトに同じ制限が適用されることを意味します。

ヒント

テキストレコードは、(ドキュメント内の文字数/1,000) を上限として計算されます。たとえば、ドキュメントの文字数が 8,921 文字の場合、テキストレコードの数は次のようになります。

ceil(8921/1000) = ceil(8.921) は、9 つのテキストレコードです。

左側のナビゲーションメニューから、[データの自動ラベル付け] を選択します。
ページの右側にある [アクティビティウィンドウ] の下にある [自動ラベル] ボタンを選択します。
[トレーニングしたモデルに基づく自動ラベル付け] を選択し、[次へ] を選択します。
トレーニング済みのモデルを選択します。モデルを自動ラベル付けに使用する前に、そのパフォーマンスを確認することをお勧めします。
自動ラベル付けジョブに含めるエンティティを選択します。既定では、すべてのエンティティが選択されます。各エンティティの合計ラベル、精度、リコールを確認できます。自動的にラベル付けされたエンティティの品質を確保するために、適切に動作するエンティティを含めることをお勧めします。
自動的にラベル付けするドキュメントを選択します。各ドキュメントのテキストレコードの数が表示されます。 1 つ以上のドキュメントを選択すると、選択されたテキストレコードの数が表示されます。フィルターからラベル付けされていないドキュメントを選択することをお勧めします。
注意
- エンティティに自動的にラベルが付けられたものの、ユーザー定義ラベルが存在する場合は、ユーザー定義ラベルのみが使用され、表示されます。
- ドキュメント名をクリックすると、ドキュメントを表示できます。
[自動ラベル] を選択して、自動ラベル付けジョブをトリガーします。使用されるモデル、自動ラベル付けジョブに含まれるドキュメントの数、自動的にラベル付けされるテキストレコードとエンティティの数が表示されます。自動ラベル付けジョブは、含まれているドキュメントの数に応じて、数秒から数分間かかることがあります。

自動ラベル付けされたドキュメントを確認する

自動ラベル付けジョブが完了すると、Language Studio の [データのラベル付け] ページに出力ドキュメントが表示されます。 [Review documents with autolabels](自動ラベル付きのドキュメントを確認) を選択すると、[Auto labeled](自動ラベル付き) フィルターが適用されたドキュメントが表示されます。

自動的にラベル付けされたエンティティは、点線で表示されます。これらのエンティティには、自動ラベルを受け入れるか拒否するかを選択できる 2 つのセレクター (チェックマークと "X") があります。

エンティティを受け入れると、点線が実線に変わり、そのラベルはそれ以降のモデルトレーニングに含められ、ユーザー定義ラベルになります。

または、画面の右上隅にある [すべて受け入れる] または [すべて拒否] を使用して、ドキュメント内で自動的にラベル付けされたすべてのエンティティを受け入れるか、または拒否することもできます。

ラベル付けされたエンティティを承諾または拒否したら、[ラベルの保存] を選択して変更を適用します。

注意

自動的にラベル付けされたエンティティを受け入れる前に検証することをお勧めします。
受け入れられなかったラベルはすべて、モデルをトレーニングするときに削除されます。

次の手順

データのラベル付けの詳細を確認する。

次の方法で共有

カスタム固有表現認識で自動ラベル付けを使用する方法

前提条件

自動ラベル付けジョブをトリガーする

自動ラベル付けされたドキュメントを確認する

次の手順

フィードバック

その他のリソース