カスタム カテゴリ

Azure AI Content Safety を使用すると、特定のポリシーやユース ケースに一致する強化されたモデレーションとフィルター処理のために、独自のコンテンツ モデレーション カテゴリを作成して管理できます。

カスタマイズの種類

カスタム カテゴリを定義して使用する方法は複数あります。このセクションで、その詳細と比較を示します。

API 機能
カスタム カテゴリ (標準) API カスタマイズ可能な機械学習モデルを使用して、カスタマイズされたカテゴリを作成、取得、クエリ、削除します。 または、カスタマイズしたすべてのカテゴリをリストして、さらに注釈タスクを行います。
カスタム カテゴリ (急速) API 大規模言語モデル (LLM) を使用して、新たに発生するコンテンツ インシデントの特定のコンテンツ パターンをすばやく学習します。

カスタム カテゴリ (標準) API

カスタム カテゴリ (標準) API を使用すると、顧客はニーズに固有のカテゴリを定義し、サンプル データを提供し、カスタム機械学習モデルをトレーニングし、それを使用して、学習したカテゴリに従って新しいコンテンツを分類できます。

これは、機械学習モデルを使用したカスタマイズの標準的なワークフローです。 トレーニング データの品質によっては、非常に優れたパフォーマンス レベルに達する可能性がありますが、モデルのトレーニングには数時間かかることがあります。

この実装はテキスト コンテンツに対して機能しますが、画像コンテンツに対しては機能しません。

カスタム カテゴリ (急速) API

カスタム カテゴリ (急速) API は、標準の手法よりも迅速かつ柔軟になるように設計されています。 これは、オンライン プラットフォーム上の不適切または有害なコンテンツに関わるサイバー インシデントの特定、分析、根絶、その後の復旧のために使用することを目的としたものです。

インシデントには、Microsoft コミュニティ ガイドラインまたはお客様独自のポリシーや期待に違反する一連の新しいコンテンツ パターン (テキスト、画像、またはその他のモダリティ) が含まれる場合があります。 ライブ サイトの潜在的な問題や、ユーザーやコミュニティに対する危害を回避するには、これらのインシデントを迅速かつ正確に軽減する必要があります。

この実装はテキスト コンテンツと画像コンテンツに対して機能します。

ヒント

新しいコンテンツ インシデントに対処するための 1 つの方法は、ブロックリストを使用することですが、これはテキストの完全一致のみを許可し、画像の一致は許可されません。 カスタム カテゴリ (急速) API では、次の高度な機能が提供されます。

  • 軽量の分類子による埋め込み検索を使用したセマンティック テキスト照合
  • 軽量のオブジェクト追跡モデルと埋め込み検索を使用した画像照合。

しくみ

Azure AI Content Safety のカスタム カテゴリ機能では、カスタム コンテンツ分類モデルを作成、トレーニング、使用するためにマルチステップ プロセスが使用されます。 ワークフローは次のようになります。

ステップ 1: 定義とセットアップ

カスタム カテゴリを定義するときは、識別するコンテンツの種類を AI に教える必要があります。 このためには、明確なカテゴリ名と、コンテンツの特性をカプセル化した詳細な定義を提供する必要があります。

次に、肯定的な例と (必要に応じて) 否定的な例のバランスの取れたデータセットを収集して、AI がカテゴリの微妙な部分を学習できるようにします。 このデータは、実際のシナリオでモデルが遭遇するさまざまなコンテンツを代表するものである必要があります。

ステップ 2: モデル トレーニング

データセットを準備してカテゴリを定義すると、Azure AI Content Safety サービスによって新しい機械学習モデルがトレーニングされます。 このモデルでは、定義とアップロードされたデータセットを使用して、大規模な言語モデルを使用してデータ拡張を実行します。 その結果、トレーニング データセットのサイズが大きくなり、品質が向上します。 トレーニング中、AI モデルはデータを分析し、指定されたカテゴリに合ったコンテンツとそうでないコンテンツを区別することを学習します。

ステップ 3: モデル推論

トレーニング後、モデルを評価して、正確性の要件を満たしていることを確認する必要があります。 まだ受け取ったことがない新しいコンテンツでモデルをテストします。 評価フェーズは、運用環境にモデルをデプロイするために必要な潜在的な調整を特定するのに役立ちます。

ステップ 4: モデルの使用

analyzeCustomCategory API を使用して、テキスト コンテンツを分析し、定義したカスタム カテゴリと一致するかどうかを判断します。 サービスは、コンテンツが指定したカテゴリに一致するかどうかを示すブール値を返します。

制限事項

利用できる言語

カスタム カテゴリの API では、Content Safety のテキスト モデレーションでサポートされているすべての言語がサポートされます。 言語のサポートに関するページを参照してください。

入力制限

カスタム カテゴリ (標準) API の入力制限については、次の表を参照してください。

Object 制限事項
サポートされている言語 英語のみ
ユーザーごとのカテゴリの数 3
カテゴリごとのバージョン数 3
カテゴリごとの同時実行ビルド (プロセス) の数 1
1 秒あたりの推論操作数 5
カテゴリ バージョン内のサンプル数 肯定的サンプル (必須): 最小 50、最大 5,000
合計 (否定的サンプルと肯定的サンプルの両方): 10,000
重複するサンプルは許可されません。
サンプル ファイル サイズ 最大 128,000 バイト
テキスト サンプルの長さ 最大 125,000 文字
カテゴリ定義の長さ 最大 1,000 文字
カテゴリ名の長さ 最大 128 文字
BLOB URL の長さ 最大 500 文字