Come configurare filtri di contenuto con il servizio OpenAI di Azure.

Nota

Tutti i clienti hanno la possibilità di modificare i filtri del contenuto e configurare le soglie di gravità (bassa, media, alta). L'approvazione è necessaria per disattivare parzialmente o completamente i filtri di contenuto. I clienti gestiti possono richiedere il controllo completo solo del filtro del contenuto tramite questo modulo: Verifica di accesso limitato di Azure OpenAI: filtri di contenuto modificati. In questo momento, non è possibile diventare un cliente gestito.

Il sistema di filtro del contenuto integrato nel servizio OpenAI di Azure viene eseguito insieme ai modelli di base, inclusi i modelli di generazione immagini DALL-E. Usa un insieme di modelli di classificazione multiclasse per rilevare quattro categorie di contenuto dannoso (violenza, odio, sesso e autolesionismo) in base a quattro livelli di gravità (sicuro, basso, medio e alto) e classificatori binari facoltativi per rilevare il rischio di jailbreak, testo esistente e codice nei repository pubblici. La configurazione di filtro del contenuto predefinita è impostata per filtrare in base alla soglia di gravità media per tutte e quattro le categorie di contenuti pericolosi sia per le richieste che per i completamenti. Ciò significa che il contenuto rilevato a livello di gravità medio o alto viene filtrato, mentre il contenuto rilevato a livello di gravità basso o sicuro non viene filtrato in base ai filtri di contenuto. Altre informazioni sulle categorie di contenuto, i livelli di gravità e il comportamento del sistema di filtro del contenuto sono disponibili qui. Il rilevamento dei rischi di jailbreak e i modelli di testo e codice protetti sono facoltativi e disattivati per impostazione predefinita. Per il rilevamento dei rischi di jailbreak e i modelli di testo e codice protetti, la funzionalità di configurabilità consente a tutti i clienti di attivare e disattivare i modelli. I modelli sono disattivati per impostazione predefinita e possono essere attivati in base allo scenario. Per alcuni scenari è necessario che alcuni modelli siano attivati per mantenere la copertura in base all'Impegno per il copyright del cliente.

I filtri contenuto possono essere configurati a livello di risorsa. Dopo aver creato una nuova configurazione, può essere associata a una o più distribuzioni. Per altre informazioni sulla distribuzione del modello, vedere la guida alla distribuzione delle risorse.

La funzionalità di configurabilità consente ai clienti di modificare le impostazioni (separatamente per prompt e completamenti) in modo da filtrare contenuto per ogni categoria di contenuto a livelli di gravità diversi, come descritto nella tabella seguente. Il contenuto rilevato con il livello di gravità "sicuro" è etichettato nelle annotazioni, ma non è soggetto al filtro e non è configurabile.

Intensità del filtro Configurabile per richieste Configurabile per completamenti Descrizione
Basso, medio, elevato Configurazione di filtraggio più intenso. Il contenuto rilevato a livelli di gravità basso, medio e alto viene filtrato.
Medio, alto Il contenuto rilevato con livello di gravità basso non viene filtrato, il contenuto a livello medio e alto viene filtrato.
Alto Il contenuto rilevato a livelli di gravità basso e medio non viene filtrato. Viene filtrato solo il contenuto a livello di gravità elevato.
Nessun filtro Se approvato* Se approvato* Nessun contenuto viene filtrato, indipendentemente dal livello di gravità rilevato. Richiede approvazione*.
Solo annotazione Se approvato* Se approvato* Disabilita la funzionalità di filtro, quindi il contenuto non verrà bloccato, ma le annotazioni vengono restituite tramite risposta dell’API. Richiede approvazione*

* Solo i clienti approvati hanno il pieno controllo del filtro del contenuto e possono disattivare parzialmente o completamente i filtri di contenuto. I clienti gestiti possono richiedere il controllo completo solo del filtro del contenuto tramite questo modulo: Verifica di accesso limitato di Azure OpenAI: filtri di contenuto modificati. In questo momento, non è possibile diventare un cliente gestito.

I clienti sono tenuti ad accertarsi che le applicazioni che integrano Azure OpenAI siano conformi al Codice di comportamento.

Categoria del filtro Status Impostazione predefinita Applicato a prompt o completamento? Descrizione
Prompt Shields per attacchi diretti (jailbreak) Disponibilità generale Attivato Prompt utente Filtra/annota i prompt degli utenti che potrebbero presentare un rischio di jailbreak. Per altre informazioni sulle annotazioni, vedere Filtro del contenuto del servizio OpenAI di Azure.
Prompt Shields per attacchi indiretti Disponibilità generale Attivato Prompt utente Filtra/annota gli attacchi indiretti, noti anche come attacchi con prompt indiretti o attacchi di prompt injection tra domini. Rappresentano una potenziale vulnerabilità in cui soggetti terzi inseriscono istruzioni dannose all'interno di documenti accessibili ed elaborabili dal sistema di intelligenza artificiale generativa. Obbligatorio: formattazione documento .
Materiale protetto - codice Disponibilità generale Attivato Completamento Filtra codice protetto o ottiene le informazioni di citazione e licenza di esempio nelle annotazioni per frammenti di codice che corrispondono a qualsiasi origine di codice pubblica, con tecnologia GitHub Copilot. Per altre informazioni sull'utilizzo delle annotazioni, vedere la guida sui concetti relativi al filtro del contenuto
Materiale protetto - testo Disponibilità generale Attivato Completamento Identifica e blocca la visualizzazione del contenuto di testo noto nell'output del modello (ad esempio, testi di brani musicali, ricette e contenuto Web selezionato).

Configurazione dei filtri di contenuto tramite studio del servizio OpenAI di Azure

I passaggi seguenti illustrano come configurare una configurazione di filtro del contenuto personalizzata per la risorsa.

  1. Passare ad Azure OpenAI Studio e passare alla scheda Filtri contenuto (nel riquadro di spostamento in basso a sinistra, come indicato dalla casella rossa seguente).

    Screenshot dell'interfaccia utente di AI Studio con i filtri del contenuto evidenziati

  2. Creare una nuova configurazione di filtro del contenuto personalizzata.

    Screenshot dell'interfaccia utente di configurazione del filtro del contenuto con l'opzione Crea selezionata

    In questo modo viene visualizzata la visualizzazione di configurazione seguente, in cui è possibile scegliere un nome per la configurazione del filtro del contenuto personalizzato.

    Screenshot dell'interfaccia utente di configurazione del filtro del contenuto

  3. Si tratta della visualizzazione della configurazione predefinita del filtro del contenuto, in cui il contenuto viene filtrato a livelli di gravità medio e alto per tutte le categorie. È possibile modificare il livello di gravità del filtro del contenuto per i prompt degli utenti e i completamenti dei modelli separatamente (la configurazione per i prompt si trova nella colonna sinistra e la configurazione per i completamenti si trova nella colonna destra, come indicato con le caselle blu seguenti) per ognuna delle quattro categorie di contenuto (le categorie di contenuto sono elencate sul lato sinistro dello schermo, come designato con la casella verde sotto). È possibile configurare tre livelli di gravità per ogni categoria: bassa, media e alta. Per impostare la soglia di gravità, usare il dispositivo di scorrimento.

    Screenshot dell'interfaccia utente di configurazione del filtro del contenuto con le opzioni Prompt utente e Completamenti del modello evidenziate

  4. Se si determina che l'applicazione o lo scenario di utilizzo richiede un filtro più rigoroso per alcune o tutte le categorie di contenuto, è possibile configurare le impostazioni, separatamente per i prompt e i completamenti, per filtrare a livelli di gravità maggiori rispetto all'impostazione predefinita. Un esempio è illustrato nell'immagine seguente, in cui il livello di filtro per le richieste degli utenti è impostato sulla configurazione più rigida per odio e sesso, con contenuto di gravità bassa filtrato insieme al contenuto classificato come media e alta di gravità (descritto nella casella rossa seguente). Nell'esempio i livelli di filtro per i completamenti del modello vengono impostati in base alla configurazione più rigorosa per tutte le categorie di contenuto (casella blu di seguito). Con questa configurazione di filtro modificata sul posto, il contenuto basso, medio e di gravità elevata verrà filtrato per le categorie di odio e sesso nelle richieste degli utenti; il contenuto di media ed elevata gravità verrà filtrato per le categorie autolesionismo e violenza nelle richieste degli utenti; e il contenuto di gravità bassa, media e alta verranno filtrati per tutte le categorie di contenuto nei completamenti del modello.

    Screenshot della configurazione del filtro del contenuto con le opzioni bassa, media, alta evidenziate.

  5. Se il caso d'uso è stato approvato per i filtri del contenuto modificati come descritto in precedenza, si riceverà il controllo completo sulle configurazioni di filtro del contenuto e sarà possibile scegliere di disattivare il filtro parzialmente o completamente. Nell'immagine seguente il filtro è disattivato per la violenza (casella verde sotto), mentre per altre categorie vengono mantenute le configurazioni predefinite. Anche se questa opzione ha disabilitato la funzionalità di filtro per la violenza, il contenuto verrà comunque annotato. Per disattivare tutti i filtri e le annotazioni, disattivare Filtri e annotazioni (casella rossa sotto).

    Screenshot della configurazione di filtro del contenuto con le voci Autolesionismo e Violenza impostate su No.

    È possibile creare più configurazioni di filtro del contenuto in base alle esigenze.

  6. Per attivare i modelli facoltativi, è possibile selezionare le caselle di controllo sul lato sinistro. Quando ognuno dei modelli facoltativi è attivato, si può indicare se il modello deve annotare o filtrare.

  7. Se si seleziona l'opzione Annota viene eseguito il rispettivo modello e vengono restituite annotazioni tramite risposta API, ma non verrà filtrato il contenuto. Oltre alle annotazioni, è anche possibile scegliere di filtrare il contenuto impostando l'opzione Filtro su Sì.

  8. È possibile creare più configurazioni di filtro del contenuto in base alle esigenze.

    Screenshot di più configurazioni per il contenuto nel portale di Azure.

  9. Successivamente, per rendere operativa una configurazione di filtro del contenuto personalizzata, assegnare una configurazione a una o più distribuzioni nella risorsa. A tale scopo, passare alla scheda Distribuzioni e selezionare Modifica distribuzione (evidenziata nella parte superiore della schermata in una casella rossa sotto).

    Screenshot della configurazione di filtro del contenuto con l'opzione Modifica distribuzione evidenziata.

  10. Passare alle opzioni avanzate (descritte nella casella blu seguente), selezionare la configurazione del filtro contenuto adatta per tale distribuzione dall'elenco a discesa Filtro contenuto (evidenziata nella parte inferiore della finestra di dialogo nella casella rossa sotto).

    Screenshot della modifica della configurazione della distribuzione con la voce Opzioni avanzate selezionata.

  11. Selezionare Salva e chiudi per applicare la configurazione selezionata alla distribuzione.

    Screenshot della modifica della configurazione della distribuzione con l'opzione Filtro del contenuto selezionata.

  12. Se necessario, è anche possibile modificare ed eliminare una configurazione del filtro contenuto. A tale scopo, passare alla scheda Filtri contenuto e selezionare l'azione desiderata (opzioni descritte nella parte superiore della schermata nella casella rossa sotto). È possibile modificare/eliminare una sola configurazione di filtro alla volta.

    Screenshot della configurazione del filtro del contenuto con le opzioni Modifica ed Elimina evidenziate.

    Nota

    Prima di eliminare una configurazione di filtro del contenuto, sarà necessario annullare l'assegnazione da qualsiasi distribuzione nella scheda Distribuzioni.

Procedure consigliate

È consigliabile informare le decisioni di configurazione del filtro del contenuto tramite un'identificazione iterativa (ad esempio, test red team, test di stress e analisi) e un processo di misurazione per risolvere i potenziali danni rilevanti per uno scenario specifico di modello, applicazione e distribuzione. Dopo aver implementato mitigazioni come il filtro del contenuto, ripetere la misurazione per testare l'efficacia. Le raccomandazioni e le procedure consigliate per l'intelligenza artificiale responsabile per Azure OpenAI, riportate in Microsoft Responsible AI Standard sono disponibili nella Panoramica dell'intelligenza artificiale responsabile per Azure OpenAI.

Passaggi successivi