Valutare manualmente le richieste nel playground di Studio AI della piattaforma Azure

Articolo
09/25/2024

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Quando si inizia a usare la progettazione dei prompt, è consigliabile testare input diversi uno alla volta per valutare l'efficacia della richiesta. Questa operazione può richiedere molto tempo. Ciò è dovuto al fatto che è importante controllare se i filtri di contenuto funzionano in modo appropriato, se la risposta è accurata e altro ancora.

Per semplificare questo processo, è possibile usare la valutazione manuale in Studio AI della piattaforma Azure, uno strumento di valutazione che consente di eseguire continuamente l'iterazione e valutare la richiesta rispetto ai dati di test in un'unica interfaccia. È anche possibile valutare manualmente gli output, le risposte del modello, per ottenere maggiore attendibilità nella richiesta.

La valutazione manuale consente di iniziare a comprendere il livello di attendibilità del prompt e l'iterazione del prompt.

Questo articolo illustra come:

Generare i risultati della valutazione manuale
Valutare le risposte del modello
Scorrere il prompt e rivalutare
Salvare e confrontare i risultati
Valutare con le metriche predefinite

Prerequisiti

Per generare risultati di valutazione manuali, è necessario disporre degli elementi seguenti:

Set di dati di test in uno dei formati seguenti: csv o jsonl. Se non si dispone di un set di dati, è anche possibile immettere i dati manualmente dall'interfaccia utente.
La distribuzione di uno di questi modelli: modello GPT 3.5, modello GPT 4 o modello Davinci. Per ottenere altre informazioni su come creare una distribuzione, vedere Distribuire i modelli.

Nota

La valutazione manuale è attualmente supportata solo per i modelli di Azure OpenAI per i tipi di attività di chat e completamento.

Generare i risultati della valutazione manuale

Dal Playground selezionare Valutazione manuale per avviare il processo di revisione manuale delle risposte del modello in base ai dati e alla richiesta del test. La richiesta viene automaticamente passata alla Valutazione manuale e ora è sufficiente aggiungere dati di test per valutare la richiesta.

Questa operazione può essere eseguita manualmente usando le caselle di testo nella colonna Input.

È anche possibile Importare dati per scegliere uno dei set di dati esistenti precedenti nel progetto o caricare un set di dati in formato CSV o JSONL. Dopo aver caricato i dati, verrà richiesto di eseguire il mapping delle colonne in modo appropriato. Al termine e selezionare Importa, i dati vengono popolati in modo appropriato nelle colonne seguenti.

Nota

È possibile aggiungere fino a 50 righe di input alla valutazione manuale. Se i dati di test hanno più di 50 righe di input, nella colonna di input verranno caricate le prime 50 righe.

Dopo aver aggiunto i dati, è possibile selezionare Esegui per popolare la colonna di output con la risposta del modello.

Valutare le risposte del modello

Per valutare l'output della richiesta, è possibile fornire una valutazione di pollice verso l'alto o verso il basso per ogni risposta. In base alle valutazioni fornite, è possibile visualizzare questi punteggi di risposta nei riepiloghi a colpo d'occhio.

Scorrere il prompt e rivalutare

In base al riepilogo, è possibile apportare modifiche al prompt. È possibile usare i controlli prompt precedenti per modificare la configurazione della richiesta. È possibile aggiornare il messaggio di sistema, modificare il modello o i parametri.

Dopo aver apportato le modifiche, è possibile scegliere di rieseguire tutto per aggiornare l'intera tabella o concentrarsi sulla riesecuzione di righe specifiche che non soddisfano le aspettative la prima volta.

Salvare e confrontare i risultati

Dopo aver popolato i risultati, è possibile salvare i risultati per condividere lo stato di avanzamento con il team o continuare la valutazione manuale da dove è stata interrotta in un secondo momento.

È anche possibile confrontare i pollici verso l'alto e il basso nelle diverse valutazioni manuali salvandoli e visualizzandoli nella scheda Valutazione in Valutazione manuale.

Passaggi successivi

Altre informazioni su come valutare le applicazioni di intelligenza artificiale generativa:

Altre informazioni sulle tecniche di mitigazione dei danni.

Condividi tramite