Che cos'è il modello Whisper?
Il modello Whisper è un modello di riconoscimento vocale di OpenAI che è possibile usare per trascrivere i file audio. Il training del modello viene eseguito su un set di dati di grandi dimensioni di audio e testo in inglese. Il modello è ottimizzato per la trascrizione dei file audio che contengono la voce in inglese. Il modello può essere usato anche per trascrivere file audio che contengono la voce in altre lingue. L'output del modello è testo in inglese.
I modelli Whisper sono disponibili tramite il Servizio OpenAI di Azure o tramite Voce di Azure AI. Le funzionalità differiscono per queste offerte. In Voce di Azure AI (trascrizione batch), Whisper è solo uno dei diversi modelli che è possibile usare per il riconoscimento vocale.
Ci si potrebbe chiedere:
Il modello Whisper è una scelta ottimale per lo scenario o è migliore un modello di Riconoscimento vocale di Intelligenza artificiale di Azure? Quali sono i confronti tra le API tra i due tipi di modelli?
Se si vuole usare il modello Whisper, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?
Il modello Whisper o modelli di Voce di Azure AI
Il modello Whisper o i modelli di Riconoscimento vocale di Azure per intelligenza artificiale sono appropriati a seconda degli scenari. Se si decide di usare Voce di Azure AI, è possibile scegliere tra diversi modelli, incluso il modello Whisper. Nella tabella seguente vengono confrontate le opzioni con le raccomandazioni su dove iniziare.
Scenario | Modello Whisper | Modelli di Riconoscimento vocale di Intelligenza artificiale di Azure |
---|---|---|
Trascrizioni, didascalie e sottotitoli in tempo reale per audio e video. | Non disponibile | Consigliato |
Trascrizioni, didascalie e sottotitoli per audio e video preregistrati. | Il modello Whisper tramite Azure OpenAI è consigliato per l'elaborazione rapida di singoli file audio. Il modello Whisper tramite Voce di Azure AI (trascrizione batch) è consigliato per l'elaborazione batch di file di grandi dimensioni. Per altre informazioni, vedere Modello Whisper tramite la trascrizione batch di Voce di Azure AI o tramite Servizio OpenAI di Azure? | Consigliato per l'elaborazione batch di file di grandi dimensioni, la diarizzazione e i timestamp a livello di parola. |
Trascrizione delle registrazioni delle chiamate telefoniche e analisi, ad esempio riepilogo delle chiamate, sentiment, argomenti chiave e informazioni dettagliate personalizzate. | Disponibile | Consigliato |
Trascrizione e analisi in tempo reale per assistere gli agenti del call center con domande dei clienti. | Non disponibile | Consigliato |
Trascrizione di registrazioni e analisi delle riunioni, ad esempio riepilogo delle riunioni, capitoli delle riunioni ed estrazione degli elementi di azione. | Disponibile | Consigliato |
Immissione di testo in tempo reale e generazione di documenti tramite dettatura vocale. | Non disponibile | Consigliato |
Agente vocale del Centro contatti: routing delle chiamate e risposta vocale interattiva per i call center. | Disponibile | Consigliato |
Assistente vocale: assistente vocale specifico per un set-top box, un'app per dispositivi mobili, un'auto e altri scenari. | Disponibile | Consigliato |
Valutazione della pronuncia: valutare la pronuncia della voce di un parlante. | Non disponibile | Consigliato |
Tradurre l'audio live da una lingua a un'altra. | Non disponibile | Consigliato tramite l'API traduzione vocale |
Tradurre l'audio preregistrato da altre lingue in inglese. | Consigliato | Disponibile tramite l'API traduzione vocale |
Tradurre l'audio preregistrato in lingue diverse dall'inglese. | Non disponibile | Consigliato tramite l'API traduzione vocale |
Modello Whisper tramite Riconoscimento vocale di Azure per intelligenza artificiale o tramite il servizio OpenAI di Azure?
Se si decide di utilizzare il modello Whisper, sono disponibili due opzioni. È possibile scegliere se usare il modello Whisper tramite Azure OpenAI o tramite Voce di Azure AI (trascrizione batch). In entrambi i casi, la leggibilità del testo trascritto è la stessa. È possibile immettere audio in lingua mista e l'output è in inglese.
Il modello Whisper tramite il servizio Azure OpenAI potrebbe essere ideale per:
- Trascrizione rapida dei file audio uno alla volta
- Tradurre audio da altre lingue in inglese
- Fornire un prompt al modello per guidare l'output
- Formati di file supportati: mp3, mp4, mpdevice, mpega, m4a, wav e webm
- Solo il carattere ASCII supportato per il nome file
Il modello Whisper tramite la trascrizione batch di Voce di Azure Ai potrebbe essere la scelta migliore per:
- Trascrizione di file di dimensioni superiori a 25 MB (fino a 1 GB). Il limite di dimensioni del file per il modello Azure OpenAI Whisper è di 25 MB.
- Trascrizione di grandi batch di file audio.
- Diarizzazione per distinguere tra i diversi relatori che partecipano alla conversazione. Il servizio Voce fornisce informazioni sull’oratore che ha pronunciato una particolare parte del discorso trascritto. Il modello Whisper tramite Azure OpenAI non supporta la diarizzazione.
- Timestamp a livello di parola
- Formati di file supportati: MP3, WAV e OGG.
Il supporto regionale è un'altra considerazione.
- Il modello Whisper tramite Servizio OpenAI di Azure è disponibile nelle aree seguenti: Stati Uniti orientali 2, India meridionale, Centro-settentrionale, Norvegia orientale, Svezia centrale, Svizzera settentrionale ed Europa occidentale.
- Il modello Whisper tramite Voce di Azure AI è disponibile nelle aree seguenti: Australia orientale, Stati Uniti orientali, Stati Uniti centro-settentrionali, Stati Uniti centro-meridionali, Asia sud-orientale, Regno Unito meridionale ed Europa occidentale.
Contenuto correlato
- Usare i modelli Whisper tramite l'API di trascrizione batch di Riconoscimento vocale di Azure
- Provare la guida introduttiva al riconoscimento vocale per Whisper tramite Azure OpenAI
- Provare la guida introduttiva al riconoscimento vocale in tempo reale tramite Riconoscimento vocale di Intelligenza artificiale di Azure