Så här konfigurerar du innehållsfilter med Azure OpenAI Service

Artikel
10/05/2024

Innehållsfiltreringssystemet som är integrerat i Azure OpenAI Service körs tillsammans med kärnmodellerna, inklusive DALL-E-bildgenereringsmodeller. Den använder en ensemble av klassificeringsmodeller med flera klasser för att identifiera fyra kategorier av skadligt innehåll (våld, hat, sexuellt och självskadebeteende) på fyra allvarlighetsnivåer (säkra, låga, medelstora och höga) och valfria binära klassificerare för att upptäcka risk för jailbreak, befintlig text och kod i offentliga lagringsplatser. Standardkonfigurationen för innehållsfiltrering är inställd på att filtrera med tröskelvärdet för medelhög allvarlighetsgrad för alla fyra kategorier av innehållsskador för både prompter och slutföranden. Det innebär att innehåll som identifieras på allvarlighetsgrad medel eller hög filtreras, medan innehåll som identifieras på allvarlighetsnivå låg eller säker inte filtreras av innehållsfiltren. Läs mer om innehållskategorier, allvarlighetsnivåer och beteendet för innehållsfiltreringssystemet här. Riskidentifiering av jailbreak och skyddade text- och kodmodeller är valfria och inaktiverade som standard. För jailbreak och skyddade materialtext- och kodmodeller gör konfigurationsfunktionen att alla kunder kan aktivera och inaktivera modellerna. Modellerna är som standard inaktiverade och kan aktiveras enligt ditt scenario. Vissa modeller måste vara på för att vissa scenarier ska kunna behålla täckningen under kundens upphovsrättsåtagande.

Kommentar

Alla kunder har möjlighet att ändra innehållsfiltren och konfigurera tröskelvärdena för allvarlighetsgrad (låg, medel, hög). Godkännande krävs för att stänga av innehållsfiltren helt eller delvis. Hanterade kunder kan endast ansöka om fullständig innehållsfiltreringskontroll via det här formuläret: Azure OpenAI Begränsad åtkomstgranskning: Ändrade innehållsfilter. För närvarande är det inte möjligt att bli en hanterad kund.

Innehållsfilter kan konfigureras på resursnivå. När en ny konfiguration har skapats kan den associeras med en eller flera distributioner. Mer information om distributionsmodellerna finns i Förstå distributionsmodeller.

Förutsättningar

Du måste ha en Azure OpenAI-resurs och en distribution av en stor språkmodell (LLM) för att konfigurera innehållsfilter. Följ en snabbstart för att komma igång.

Förstå konfigurerbarhet för innehållsfilter

Azure OpenAI Service innehåller standardsäkerhetsinställningar som tillämpas på alla modeller, exklusive Azure OpenAI Whisper. De här konfigurationerna ger dig en ansvarsfull upplevelse som standard, inklusive modeller för innehållsfiltrering, blocklistor, prompttransformering, autentiseringsuppgifter för innehåll och andra. Läs mer om det här.

Alla kunder kan också konfigurera innehållsfilter och skapa anpassade säkerhetsprinciper som är skräddarsydda för deras användningsfallskrav. Med konfigurationsfunktionen kan kunderna justera inställningarna separat för frågor och slutföranden för att filtrera innehåll för varje innehållskategori på olika allvarlighetsnivåer enligt beskrivningen i tabellen nedan. Innehåll som identifieras på allvarlighetsnivå "säker" är märkt i anteckningar men är inte föremål för filtrering och kan inte konfigureras.

Allvarlighetsgrad filtrerad	Kan konfigureras för frågor	Kan konfigureras för slutföranden	Beskrivningar
Låg, medelhög, hög	Ja	Ja	Striktast filtreringskonfiguration. Innehåll som identifieras på allvarlighetsgraderna låg, medelhög och hög filtreras.
Medelhög, hög	Ja	Ja	Innehåll som identifieras på allvarlighetsnivå låg filtreras inte, innehåll på medelhög och hög filtreras.
Högt	Ja	Ja	Innehåll som identifieras på allvarlighetsgraderna låg och medel filtreras inte. Endast innehåll på hög allvarlighetsgrad filtreras.
Inga filter	Om godkänd¹	Om godkänd¹	Inget innehåll filtreras oavsett allvarlighetsgrad som identifierats. Kräver godkännande¹.
Kommentera endast	Om godkänd¹	Om godkänd¹	Inaktiverar filterfunktionen, så innehållet blockeras inte, men anteckningar returneras via API-svar. Kräver godkännande¹.

¹ För Azure OpenAI-modeller har endast kunder som har godkänts för modifierad innehållsfiltrering fullständig innehållsfiltreringskontroll och kan inaktivera innehållsfilter. Ansök om ändrade innehållsfilter via det här formuläret: Azure OpenAI Limited Access Review: Modified Content Filters (Begränsad åtkomstgranskning i Azure OpenAI: Ändrade innehållsfilter). För Azure Government-kunder kan du ansöka om ändrade innehållsfilter via det här formuläret: Azure Government – Begära ändrad innehållsfiltrering för Azure OpenAI-tjänsten.

Konfigurerbara innehållsfilter för indata (prompter) och utdata (slutföranden) är tillgängliga för följande Azure OpenAI-modeller:

GPT-modellserie
GPT-4 Turbo Vision GA^* (turbo-2024-04-09)
GPT-4o
GPT-4o mini
DALL-E 2 och 3

Konfigurerbara innehållsfilter är inte tillgängliga för

o1-preview
o1-mini

^*Endast tillgängligt för GPT-4 Turbo Vision GA, gäller inte för GPT-4 Turbo Vision preview

Konfigurationer för innehållsfiltrering skapas i en resurs i Azure AI Studio och kan associeras med distributioner. Läs mer om konfigurerbarhet här.

Kunderna ansvarar för att säkerställa att program som integrerar Azure OpenAI följer uppförandekoden.

Förstå andra filter

Du kan konfigurera följande filterkategorier utöver standardfilter för skadekategorier.

Filterkategori	Status	Standardinställning	Tillämpas på fråga eller slutförande?	beskrivning
Fråga sköldar för direkta attacker (jailbreak)	Allmän tillgänglighet	På	Användarprompt	Filtrerar/kommenterar användarfrågor som kan utgöra en jailbreak-risk. Mer information om anteckningar finns i Azure OpenAI Service-innehållsfiltrering.
Fråga sköldar för indirekta attacker	Allmän tillgänglighet	På	Användarprompt	Filtrera/kommentera indirekta attacker, även kallade indirekta promptattacker eller direktinmatningsattacker mellan domäner, en potentiell sårbarhet där tredje part placerar skadliga instruktioner i dokument som det generativa AI-systemet kan komma åt och bearbeta. Obligatoriskt: Dokumentformatering .
Skyddat material – kod	Allmän tillgänglighet	På	Fullbordande	Filtrerar skyddad kod eller hämtar exempelinformation om källhänvisning och licens i anteckningar för kodfragment som matchar offentliga kodkällor som drivs av GitHub Copilot. Mer information om att använda anteckningar finns i konceptguiden för innehållsfiltrering
Skyddat material – text	Allmän tillgänglighet	På	Fullbordande	Identifierar och blockerar känt textinnehåll från att visas i modellutdata (till exempel låttexter, recept och valt webbinnehåll).

Konfigurera innehållsfilter via Azure OpenAI Studio

Följande steg visar hur du konfigurerar en anpassad konfiguration för innehållsfiltrering för resursen.

Gå till Azure OpenAI Studio och gå till fliken Innehållsfilter (i det nedre vänstra navigeringsfältet enligt den röda rutan nedan).
Skapa en ny konfiguration för anpassad innehållsfiltrering.

Detta leder till följande konfigurationsvy, där du kan välja ett namn för konfigurationen för anpassad innehållsfiltrering. När du har angett ett namn kan du konfigurera indatafilter (användarfrågor) och utdatafilter (modellsvar). För de första fyra innehållskategorierna finns det tre allvarlighetsnivåer som kan konfigureras: Låg, medel och hög. Du kan använda skjutreglagen för att ange tröskelvärdet för allvarlighetsgrad om du fastställer att ditt program eller användningsscenario kräver en annan filtrering än standardvärdena. Med vissa filter kan du avgöra om modellen ska kommentera och/eller blockera. Om du väljer Kommentera körs respektive modell och returnerar anteckningar via API-svar, men det filtrerar inte innehåll. Förutom anteckningar kan du också välja att filtrera innehåll genom att växla växlingsknappen Filter till på.

Om ditt användningsfall godkändes för ändrade innehållsfilter enligt beskrivningen ovan får du fullständig kontroll över konfigurationer för innehållsfiltrering och kan välja att helt eller delvis inaktivera filtrering.
Du kan skapa flera konfigurationer för innehållsfiltrering enligt dina behov.
För att göra en konfiguration för anpassad innehållsfiltrering i drift tilldelar du sedan en konfiguration till en eller flera distributioner i resursen. Det gör du genom att gå till fliken Distributioner och välja din distribution. Välj sedan Redigera.
I fönstret Uppdatera distribution som visas väljer du ditt anpassade filter i listrutan Innehållsfilter . Välj sedan Spara och stäng för att tillämpa den valda konfigurationen på distributionen.
Du kan också redigera och ta bort en konfiguration av innehållsfilter om det behövs. Det gör du genom att gå till fliken innehållsfilter och välja en konfiguration. Välj sedan önskad åtgärd. Du kan bara redigera en filtreringskonfiguration i taget.

Kommentar

Innan du tar bort en konfiguration för innehållsfiltrering måste du ta bort den från distributionen på fliken Distributioner.

Följ metodtipsen

Vi rekommenderar att du informerar dina beslut om innehållsfiltrering genom en iterativ identifiering (till exempel red team-testning, stresstestning och analys) och mätningsprocess för att åtgärda potentiella skador som är relevanta för en specifik modell, ett visst program och distributionsscenario. När du har implementerat åtgärder som innehållsfiltrering upprepar du mätningen för att testa effektiviteten. Rekommendationer och metodtips för ansvarsfull AI för Azure OpenAI, som finns i Microsoft Responsible AI Standard, finns i Översikt över ansvarsfull AI för Azure OpenAI.

Läs mer om ansvarsfulla AI-metoder för Azure OpenAI: Översikt över ansvarsfulla AI-metoder för Azure OpenAI-modeller.
Läs mer om innehållsfiltreringskategorier och allvarlighetsgradsnivåer med Azure OpenAI Service.
Läs mer om röd teamindelning från vår artikel: Introduktion till red teaming large language models (LLMs).

Dela via

Så här konfigurerar du innehållsfilter med Azure OpenAI Service

Förutsättningar

Förstå konfigurerbarhet för innehållsfilter

Förstå andra filter

Konfigurera innehållsfilter via Azure OpenAI Studio

Följ metodtipsen

Feedback

Ytterligare resurser

Dela via

Så här konfigurerar du innehållsfilter med Azure OpenAI Service

Förutsättningar

Förstå konfigurerbarhet för innehållsfilter

Förstå andra filter

Konfigurera innehållsfilter via Azure OpenAI Studio

Följ metodtipsen

Relaterat innehåll

Feedback

Ytterligare resurser