Azure OpenAI Service でコンテンツ フィルターを構成する方法

Azure OpenAI Service に統合されたコンテンツ フィルタリング システムは、DALL-E イメージ生成モデルを含むコア モデルと共に実行されます。 マルチクラス分類モデルのアンサンブルを使用して、有害なコンテンツ (暴力、憎悪、性的、自傷行為) の 4 つのカテゴリをそれぞれ 4 つの重大度レベル (安全、低、中、高) で検出し、オプションで二項分類器を使用して、脱獄リスク、既存のテキスト、パブリック リポジトリ内のコードを検出します。 既定のコンテンツ フィルタリング構成では、プロンプトと入力候補の両方で、4 つの有害なコンテンツ カテゴリすべてに対して "中" の重大度しきい値でフィルター処理するように設定されています。 つまり、重大度レベル "中" または "高" で検出されたコンテンツはコンテンツ フィルターによってフィルタリングされますが、重大度レベル "低" で検出されたコンテンツはフィルタリングされません。 コンテンツ カテゴリ、重大度レベル、およびコンテンツ フィルタリング システムの動作の詳細については、こちらを参照してください。 脱獄リスク検出、保護されたテキスト、およびコード モデルは省略可能で、既定ではオフになっています。 脱獄、保護された素材のテキスト、およびコード モデルについては、構成可能性機能により、すべてのお客様がモデルのオン/オフを切り替えることができます。 モデルは既定ではオフになっており、シナリオに応じてオンにできます。 モデルによっては、Customer Copyright Commitment の適用範囲を維持するために、特定のシナリオでオンになっている必要がある場合があります。

Note

すべての顧客は、コンテンツ フィルターを変更し、重大度のしきい値 (低、中、高) を構成できます。 コンテンツ フィルターを部分的または完全にオフにする場合は、承認が必要です。 管理対象のお客様は、Azure OpenAI 制限付きアクセス レビュー: 変更されたコンテンツ フィルターというフォームを介してのみ、完全なコンテンツ フィルター制御を適用できます。 現時点では、管理対象のお客様になることはできません。

コンテンツ フィルターは、リソース レベルで構成できます。 新しい構成を作成したら、1 つ以上のデプロイに関連付けることができます。 モデル デプロイの詳細については、リソース デプロイ ガイドを参照してください。

前提条件

  • コンテンツ フィルターを構成するには、Azure OpenAI リソースと大規模言語モデル (LLM) のデプロイが必要です。 クイックスタートに従って始めてください。

コンテンツ フィルターの構成可否について

Azure OpenAI Service には、(Azure OpenAI Whisper を除く) すべてのモデルに適用される既定の安全性の設定が含まれています。 これらの構成により、コンテンツ フィルタリング モデル、ブロックリスト、プロンプト変換、コンテンツ資格情報など、責任あるエクスペリエンスが既定で提供されます。 詳細については、こちらを参照してください

また、すべてのお客様は、コンテンツ フィルターを構成し、ユース ケースの要件に合わせたカスタム安全性ポリシーを作成することもできます。 この構成機能を使用すると、利用者はプロンプトと補完の設定を個別に調整し、以下の表に示す異なる重大度レベルで各コンテンツ カテゴリのコンテンツをフィルター処理できます。 重大度レベル "安全" で検出されたコンテンツは注釈でラベル付けされますが、フィルタリングの対象ではなく、構成もできません。

フィルタリングされた重大度 プロンプト用に構成可能 入力候補用に構成可能 説明
[低]、[中]、[高] はい はい 最も厳密なフィルタリング構成。 重大度レベルが低、中、高で検出されたコンテンツはフィルタリングされます。
中、高 はい はい 低い重大度レベルの検出されたコンテンツはフィルター処理されず、中および高のコンテンツはフィルター処理されます。
はい はい 重大度レベルが低および中で検出されたコンテンツはフィルター処理されません。 重大度レベルが高のコンテンツのみがフィルタリングされます。
フィルターなし 承認された場合 1 承認された場合 1 重大度レベルの検出に関係なく、コンテンツはフィルタリングされません。 承認が必要1.
注釈のみ 承認された場合 1 承認された場合 1 フィルター機能を無効にするため、コンテンツはブロックされませんが、注釈は API 応答を介して返されます。 承認が必要1.

1 Azure OpenAI モデルの場合、変更されたコンテンツ フィルタリングを承認されたお客様のみコンテンツのフィルター処理を完全に制御でき、コンテンツ フィルターをオフにできます。 次のフォームから修正コンテンツ フィルターを申請してください: Azure OpenAI 制限付きアクセス レビュー: 修正コンテンツ フィルター。 Azure Government のお客様の場合は、次のフォームから修正コンテンツ フィルターを申請してください: Azure Government - Azure OpenAI Service の修正コンテンツ フィルタリングのリクエスト

入力 (プロンプト) と出力 (入力候補) の構成可能なコンテンツ フィルターは、次の Azure OpenAI モデルで利用できます。

  • GPT モデル シリーズ
  • GPT-4 Turbo Vision GA* (turbo-2024-04-09)
  • GPT-4o
  • GPT-4o mini
  • DALL-E 2 と 3

構成可能コンテンツ フィルターは、以下では利用できません

  • o1-preview
  • o1-mini

*GPT-4 Turbo Vision GA でのみ利用でき、GPT-4 Turbo Vision プレビューには適用されません

コンテンツ フィルタリング構成は、Azure AI Studio のリソース内に作成され、デプロイに関連付けることができます。 構成可能性の詳細については、こちらを参照してください

Azure OpenAI を統合するアプリケーションが倫理規定に準拠していることを確認する責任は、お客様にあります。

その他のフィルターについて

既定の危害カテゴリ フィルターに加えて、次のフィルター カテゴリを構成できます。

フィルター カテゴリー 状態 既定の設定 プロンプトと入力候補のどちらに適用されますか? 説明
直接攻撃に関するプロンプト シールド (ジェイルブレイク) GA オン ユーザー プロンプト ジェイルブレイク リスクがあるかもしれないユーザー プロンプトをフィルター処理/注釈付けします。 注釈の詳細については、「Azure OpenAI Service のコンテンツ フィルタリング」を参照してください。
間接攻撃に関するプロンプト シールド GA オン ユーザー プロンプト 生成 AI システムがアクセスして処理できるドキュメント内に、第三者が悪意のある命令を配置する潜在的な脆弱性である間接攻撃 (別名、間接プロンプト攻撃またはクロスドメイン プロンプト インジェクション攻撃) をフィルター処理/注釈付けします。 必須: ドキュメント フォーマット。
保護された素材 - コード GA オン 完了 保護されたコードをフィルター処理するか、GitHub Copilot を利用して何らかのパブリック コード ソースと一致するコード スニペット用の注釈内の引用とライセンスの情報の例を取得します。 注釈の使用に関する詳細については、「コンテンツのフィルター処理の概念のガイド」を参照してください
保護された素材 - テキスト GA オン 完了 既知のテキスト コンテンツを識別し、モデル出力内でそれが表示されることをブロックします (たとえば、曲の歌詞、レシピ、選択した Web コンテンツなど)。

Azure OpenAI Studio を介したコンテンツ フィルターの構成

次の手順では、リソースのカスタマイズされたコンテンツ フィルタリング構成を設定する方法を示します。

  1. Azure OpenAI Studio に移動し、[コンテンツ フィルター] タブに移動します (左下のナビゲーションで、下の赤いボックスで指定されています)。

    コンテンツ フィルターが強調表示された AI Studio UI のスクリーンショット

  2. カスタマイズされた新しいコンテンツ フィルタリングの構成を作成します。

    [作成する] が選択されたコンテンツ フィルタリング構成 UI のスクリーンショット

    これにより、次の構成ビューが表示されます。ここでは、カスタム コンテンツ フィルタリング構成の名前を選択できます。

    コンテンツ フィルタリング構成 UI のスクリーンショット

  3. これは、既定のコンテンツ フィルタリング構成のビューで、コンテンツはすべてのカテゴリに対して中および高の重大度レベルでフィルタリングされます。 4 つのコンテンツ カテゴリ (下の緑色のボックスで示されているように、画面の左側にコンテンツ カテゴリが一覧表示されます) ごとに、ユーザー プロンプトとモデルの入力候補の両方のコンテンツ フィルターの重要度レベルを個別に変更できます (下の青いボックスで示されているように、プロンプトの構成は左側の列にあり、入力候補の構成は右側の列にあります)。 各カテゴリには、構成可能な次の 3 つの重大度レベルがあります: 低、中、高。 スライダーを使用して重大度のしきい値を設定できます。

    ユーザー プロンプトとモデルの入力候補が強調表示されたコンテンツ フィルタリング構成 UI のスクリーンショット

  4. アプリケーションまたは使用シナリオで、一部またはすべてのコンテンツ カテゴリに対してより厳密なフィルタリングが必要であると判断した場合は、プロンプトと入力候補を個別に構成して、デフォルト設定よりも高い重大度レベルでフィルタリングできます。 次の図に例を示します。ユーザー プロンプトのフィルタリング レベルは、憎悪と性的の最も厳密な構成に設定され、重大度が低のコンテンツは、重大度が中および高として分類されたコンテンツと共にフィルタリングされます (下の赤いボックスで囲まれた部分)。 この例では、モデル入力候補のフィルタリング レベルは、すべてのコンテンツ カテゴリに対して最も厳密な構成で設定されています (下の青いボックス)。 この変更されたフィルタリング構成を適用すると、ユーザープロンプトで低、中、高の重大度のコンテンツが、憎悪と性的カテゴリでフィルタリングされます。中および高の重大度のコンテンツは、ユーザープロンプトで自傷行為および暴力のカテゴリでフィルタリングされます。低、中、高の重大度のコンテンツは、モデル入力候補のすべてのコンテンツ カテゴリに対してフィルタリングされます。

    低、中、高が強調表示されたコンテンツ フィルタリング構成のスクリーンショット。

  5. 前述のように変更されたコンテンツ フィルターに対してユース ケースが承認された場合は、コンテンツ フィルタリング構成を完全に制御でき、フィルター処理の一部またはすべてをオフにできます。 以下の画像では、暴力 (下の緑のボックス) についてはフィルター処理がオフになっていますが、その他のカテゴリについては既定の設定が保持されます。 これにより、暴力のフィルター機能は無効になりましたが、コンテンツには引き続き注釈が付けられます。 すべてのフィルターと注釈をオフにするには、フィルターと注釈をオフに切り替えます (下の赤のボックス)。

    自傷行為と暴力がオフに設定されたコンテンツ フィルタリング構成のスクリーンショット。

    要件に従って、複数のコンテンツ フィルタリング構成を作成できます。

  6. オプション モデルをオンにするには、左側のチェックボックスのいずれかを選択します。 各オプション モデルをオンにすると、モデルで注釈を付けるかフィルター処理するかを指定できます。

  7. [注釈] を選択すると、それぞれのモデルが実行され、API 応答を介して注釈が返されますが、コンテンツはフィルタリングされません。 注釈に加えて、フィルター トグルをオンに切り替えることで、コンテンツをフィルター処理することもできます。

  8. 要件に従って、複数のコンテンツ フィルタリング構成を作成できます。

    Azure portal での複数のコンテンツ構成のスクリーンショット。

  9. 次に、カスタム コンテンツ フィルタリング構成を操作できるようにするには、リソース内の 1 つ以上のデプロイに構成を割り当てます。 これを行うには、[デプロイ] タブに移動し、[デプロイの編集] を選択します (画面の上部付近の赤いボックスで囲まれた部分)。

    デプロイの編集が強調表示されたコンテンツ フィルタリング構成のスクリーンショット。

  10. 詳細オプション (下の青いボックスで囲まれています) に移動し、[コンテンツ フィルター] ドロップダウンからデプロイに適したコンテンツ フィルターの構成を選択します (ダイアログ ボックスの下部付近にある、下の赤いボックスで囲まれた部分)。

    詳細オプションが選択されたデプロイ構成の編集のスクリーンショット。

  11. [保存して閉じる] を選択して、選択した構成をデプロイに適用します。

    コンテンツ フィルターが選択されたデプロイ構成の編集のスクリーンショット。

  12. 必要に応じて、コンテンツ フィルター構成を編集および削除することもできます。 これを行うには、[コンテンツ フィルター] タブに移動し、目的のアクション (画面の上部付近にある下の赤いボックスで囲まれたオプション) を選択します。 一度に編集/削除できるフィルタリング構成は 1 つだけです。

    編集と削除が強調表示されたコンテンツ フィルター構成のスクリーンショット。

    Note

    コンテンツ フィルタリング構成を削除する前に、[デプロイ] タブでデプロイから割り当てを解除する必要があります。

ベスト プラクティスに従う

反復的な特定 (レッド チーム テスト、ストレス テスト、分析など) と測定のプロセスを通じてコンテンツ フィルタリング構成の決定を通知し、特定のモデル、アプリケーション、デプロイ シナリオに関連する潜在的な損害に対処することをお勧めします。 コンテンツ フィルタリングなどの軽減策を実装した後、測定を繰り返して有効性をテストします。 Microsoft Responsible AI Standard に基づいた Azure OpenAI の Responsible AI に関する推奨事項とベスト プラクティスについては、「Azure OpenAI の Responsible AI の概要」を参照してください。