Så här konfigurerar du innehållsfilter med Azure OpenAI Service
Innehållsfiltreringssystemet som är integrerat i Azure OpenAI Service körs tillsammans med kärnmodellerna, inklusive DALL-E-bildgenereringsmodeller. Den använder en ensemble av klassificeringsmodeller med flera klasser för att identifiera fyra kategorier av skadligt innehåll (våld, hat, sexuellt och självskadebeteende) på fyra allvarlighetsnivåer (säkra, låga, medelstora och höga) och valfria binära klassificerare för att upptäcka risk för jailbreak, befintlig text och kod i offentliga lagringsplatser. Standardkonfigurationen för innehållsfiltrering är inställd på att filtrera med tröskelvärdet för medelhög allvarlighetsgrad för alla fyra kategorier av innehållsskador för både prompter och slutföranden. Det innebär att innehåll som identifieras på allvarlighetsgrad medel eller hög filtreras, medan innehåll som identifieras på allvarlighetsnivå låg eller säker inte filtreras av innehållsfiltren. Läs mer om innehållskategorier, allvarlighetsnivåer och beteendet för innehållsfiltreringssystemet här. Riskidentifiering av jailbreak och skyddade text- och kodmodeller är valfria och inaktiverade som standard. För jailbreak och skyddade materialtext- och kodmodeller gör konfigurationsfunktionen att alla kunder kan aktivera och inaktivera modellerna. Modellerna är som standard inaktiverade och kan aktiveras enligt ditt scenario. Vissa modeller måste vara på för att vissa scenarier ska kunna behålla täckningen under kundens upphovsrättsåtagande.
Kommentar
Alla kunder har möjlighet att ändra innehållsfiltren och konfigurera tröskelvärdena för allvarlighetsgrad (låg, medel, hög). Godkännande krävs för att stänga av innehållsfiltren helt eller delvis. Hanterade kunder kan endast ansöka om fullständig innehållsfiltreringskontroll via det här formuläret: Azure OpenAI Begränsad åtkomstgranskning: Ändrade innehållsfilter. För närvarande är det inte möjligt att bli en hanterad kund.
Innehållsfilter kan konfigureras på resursnivå. När en ny konfiguration har skapats kan den associeras med en eller flera distributioner. Mer information om distributionsmodellerna finns i Förstå distributionsmodeller.
Förutsättningar
- Du måste ha en Azure OpenAI-resurs och en distribution av en stor språkmodell (LLM) för att konfigurera innehållsfilter. Följ en snabbstart för att komma igång.
Förstå konfigurerbarhet för innehållsfilter
Azure OpenAI Service innehåller standardsäkerhetsinställningar som tillämpas på alla modeller, exklusive Azure OpenAI Whisper. De här konfigurationerna ger dig en ansvarsfull upplevelse som standard, inklusive modeller för innehållsfiltrering, blocklistor, prompttransformering, autentiseringsuppgifter för innehåll och andra. Läs mer om det här.
Alla kunder kan också konfigurera innehållsfilter och skapa anpassade säkerhetsprinciper som är skräddarsydda för deras användningsfallskrav. Med konfigurationsfunktionen kan kunderna justera inställningarna separat för frågor och slutföranden för att filtrera innehåll för varje innehållskategori på olika allvarlighetsnivåer enligt beskrivningen i tabellen nedan. Innehåll som identifieras på allvarlighetsnivå "säker" är märkt i anteckningar men är inte föremål för filtrering och kan inte konfigureras.
Allvarlighetsgrad filtrerad | Kan konfigureras för frågor | Kan konfigureras för slutföranden | Beskrivningar |
---|---|---|---|
Låg, medelhög, hög | Ja | Ja | Striktast filtreringskonfiguration. Innehåll som identifieras på allvarlighetsgraderna låg, medelhög och hög filtreras. |
Medelhög, hög | Ja | Ja | Innehåll som identifieras på allvarlighetsnivå låg filtreras inte, innehåll på medelhög och hög filtreras. |
Högt | Ja | Ja | Innehåll som identifieras på allvarlighetsgraderna låg och medel filtreras inte. Endast innehåll på hög allvarlighetsgrad filtreras. |
Inga filter | Om godkänd1 | Om godkänd1 | Inget innehåll filtreras oavsett allvarlighetsgrad som identifierats. Kräver godkännande1. |
Kommentera endast | Om godkänd1 | Om godkänd1 | Inaktiverar filterfunktionen, så innehållet blockeras inte, men anteckningar returneras via API-svar. Kräver godkännande1. |
1 För Azure OpenAI-modeller har endast kunder som har godkänts för modifierad innehållsfiltrering fullständig innehållsfiltreringskontroll och kan inaktivera innehållsfilter. Ansök om ändrade innehållsfilter via det här formuläret: Azure OpenAI Limited Access Review: Modified Content Filters (Begränsad åtkomstgranskning i Azure OpenAI: Ändrade innehållsfilter). För Azure Government-kunder kan du ansöka om ändrade innehållsfilter via det här formuläret: Azure Government – Begära ändrad innehållsfiltrering för Azure OpenAI-tjänsten.
Konfigurerbara innehållsfilter för indata (prompter) och utdata (slutföranden) är tillgängliga för följande Azure OpenAI-modeller:
- GPT-modellserie
- GPT-4 Turbo Vision GA* (
turbo-2024-04-09
) - GPT-4o
- GPT-4o mini
- DALL-E 2 och 3
Konfigurerbara innehållsfilter är inte tillgängliga för
- o1-preview
- o1-mini
*Endast tillgängligt för GPT-4 Turbo Vision GA, gäller inte för GPT-4 Turbo Vision preview
Konfigurationer för innehållsfiltrering skapas i en resurs i Azure AI Studio och kan associeras med distributioner. Läs mer om konfigurerbarhet här.
Kunderna ansvarar för att säkerställa att program som integrerar Azure OpenAI följer uppförandekoden.
Förstå andra filter
Du kan konfigurera följande filterkategorier utöver standardfilter för skadekategorier.
Filterkategori | Status | Standardinställning | Tillämpas på fråga eller slutförande? | beskrivning |
---|---|---|---|---|
Fråga sköldar för direkta attacker (jailbreak) | Allmän tillgänglighet | På | Användarprompt | Filtrerar/kommenterar användarfrågor som kan utgöra en jailbreak-risk. Mer information om anteckningar finns i Azure OpenAI Service-innehållsfiltrering. |
Fråga sköldar för indirekta attacker | Allmän tillgänglighet | På | Användarprompt | Filtrera/kommentera indirekta attacker, även kallade indirekta promptattacker eller direktinmatningsattacker mellan domäner, en potentiell sårbarhet där tredje part placerar skadliga instruktioner i dokument som det generativa AI-systemet kan komma åt och bearbeta. Obligatoriskt: Dokumentformatering . |
Skyddat material – kod | Allmän tillgänglighet | På | Fullbordande | Filtrerar skyddad kod eller hämtar exempelinformation om källhänvisning och licens i anteckningar för kodfragment som matchar offentliga kodkällor som drivs av GitHub Copilot. Mer information om att använda anteckningar finns i konceptguiden för innehållsfiltrering |
Skyddat material – text | Allmän tillgänglighet | På | Fullbordande | Identifierar och blockerar känt textinnehåll från att visas i modellutdata (till exempel låttexter, recept och valt webbinnehåll). |
Konfigurera innehållsfilter via Azure OpenAI Studio
Följande steg visar hur du konfigurerar en anpassad konfiguration för innehållsfiltrering för resursen.
Gå till Azure OpenAI Studio och gå till fliken Innehållsfilter (i det nedre vänstra navigeringsfältet enligt den röda rutan nedan).
Skapa en ny konfiguration för anpassad innehållsfiltrering.
Detta leder till följande konfigurationsvy, där du kan välja ett namn för konfigurationen för anpassad innehållsfiltrering. När du har angett ett namn kan du konfigurera indatafilter (användarfrågor) och utdatafilter (modellsvar). För de första fyra innehållskategorierna finns det tre allvarlighetsnivåer som kan konfigureras: Låg, medel och hög. Du kan använda skjutreglagen för att ange tröskelvärdet för allvarlighetsgrad om du fastställer att ditt program eller användningsscenario kräver en annan filtrering än standardvärdena. Med vissa filter kan du avgöra om modellen ska kommentera och/eller blockera. Om du väljer Kommentera körs respektive modell och returnerar anteckningar via API-svar, men det filtrerar inte innehåll. Förutom anteckningar kan du också välja att filtrera innehåll genom att växla växlingsknappen Filter till på.
Om ditt användningsfall godkändes för ändrade innehållsfilter enligt beskrivningen ovan får du fullständig kontroll över konfigurationer för innehållsfiltrering och kan välja att helt eller delvis inaktivera filtrering.
Du kan skapa flera konfigurationer för innehållsfiltrering enligt dina behov.
För att göra en konfiguration för anpassad innehållsfiltrering i drift tilldelar du sedan en konfiguration till en eller flera distributioner i resursen. Det gör du genom att gå till fliken Distributioner och välja din distribution. Välj sedan Redigera.
I fönstret Uppdatera distribution som visas väljer du ditt anpassade filter i listrutan Innehållsfilter . Välj sedan Spara och stäng för att tillämpa den valda konfigurationen på distributionen.
Du kan också redigera och ta bort en konfiguration av innehållsfilter om det behövs. Det gör du genom att gå till fliken innehållsfilter och välja en konfiguration. Välj sedan önskad åtgärd. Du kan bara redigera en filtreringskonfiguration i taget.
Kommentar
Innan du tar bort en konfiguration för innehållsfiltrering måste du ta bort den från distributionen på fliken Distributioner.
Följ metodtipsen
Vi rekommenderar att du informerar dina beslut om innehållsfiltrering genom en iterativ identifiering (till exempel red team-testning, stresstestning och analys) och mätningsprocess för att åtgärda potentiella skador som är relevanta för en specifik modell, ett visst program och distributionsscenario. När du har implementerat åtgärder som innehållsfiltrering upprepar du mätningen för att testa effektiviteten. Rekommendationer och metodtips för ansvarsfull AI för Azure OpenAI, som finns i Microsoft Responsible AI Standard, finns i Översikt över ansvarsfull AI för Azure OpenAI.
Relaterat innehåll
- Läs mer om ansvarsfulla AI-metoder för Azure OpenAI: Översikt över ansvarsfulla AI-metoder för Azure OpenAI-modeller.
- Läs mer om innehållsfiltreringskategorier och allvarlighetsgradsnivåer med Azure OpenAI Service.
- Läs mer om röd teamindelning från vår artikel: Introduktion till red teaming large language models (LLMs).