Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

Articolo
10/07/2024

I servizi di intelligenza artificiale di Azure aiutano i progettisti e gli sviluppatori di carichi di lavoro a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili senza API e modelli predefiniti e personalizzabili.

Questo articolo illustra i servizi di intelligenza artificiale di Azure che offrono funzionalità di riconoscimento vocale e generazione, ad esempio conversioni vocali e sintesi vocale, traduzione audio, riconoscimento del parlante e supporto per la lettura per le persone con differenze di apprendimento.

Nota

Per raccogliere informazioni dettagliate su termini o frasi o ottenere un'analisi contestuale dettagliata della lingua parlata o scritta, vedere Scegliere una tecnologia di elaborazione del linguaggio di destinazione dell'intelligenza artificiale di Azure.

Servizi

I servizi di intelligenza artificiale di Azure seguenti possono fornire funzionalità di riconoscimento vocale e generazione per il carico di lavoro.

Riconoscimento vocale di Intelligenza artificiale di Azure offre l'elaborazione del linguaggio naturale per l'analisi del testo.
- Usare il servizio Voce quando è necessario trascrivere o tradurre il parlato, identificare i parlanti in una conversazione. È anche possibile usare il servizio come alternativa a costi più bassi per la generazione del parlato audio naturale alla qualità superiore Sussurra nei modelli OpenAI.
- Non usare il servizio Voce per chat, riepilogo del contenuto, moderazione o guida degli utenti tramite script. Usare invece altri modelli per tali elementi.
La lettura immersiva è uno strumento che implementa tecniche comprovate per migliorare la comprensione della lettura per lettori emergenti, studenti di lingue e persone con differenze nell'apprendimento.
- Usare Strumento di lettura immersiva per offrire un'esperienza di leggibilità migliorata adattata agli studenti di lingue o alle persone con differenze di apprendimento.
- Non usare Strumento di lettura immersiva per i casi d'uso tradizionali di sintesi vocale.

Voce di Azure AI

Azure AI Speech offre funzionalità di sintesi vocale e sintesi vocale con una risorsa Voce. È possibile convertire la voce in testo scritto con elevata precisione, produrre sintesi vocale che abbia un suono naturale, tradurre audio parlato e usare il riconoscimento del parlante durante le conversazioni. Crea voci personalizzate, aggiungi parole specifiche al vocabolario di base o crea modelli personalizzati. Esegui il servizio Voce ovunque, sul cloud o nella rete perimetrale in contenitori.

Il riconoscimento vocale è disponibile per molte lingue e aree geografiche.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Voce di Intelligenza artificiale di Azure.

Funzionalità	Descrizione
Trascrizione batch	Trascrivere una grande quantità di dati audio nell'archiviazione. Sia l'API REST del riconoscimento vocale che l’interfaccia della riga di comando (CLI) di Voce supportano la trascrizione batch.
Riconoscimento delle finalità	Una finalità è qualcosa che l'utente desidera fare: prenotare un volo, controllare il meteo o effettuare una chiamata. Con il riconoscimento delle finalità, le applicazioni, gli strumenti e i dispositivi possono determinare ciò che l'utente vuole avviare o eseguire in base alle opzioni. Definire la finalità dell'utente nel modello CLU (Intent Recognizer) o Conversational Language Understanding( CLU).
Valutazione della pronuncia	Valuta la pronuncia valuta la pronuncia vocale e fornisce ai parlanti un feedback sull'accuratezza e sulla scorrevolezza dell'audio parlato.
Riconoscimento del parlante	Il riconoscimento del parlante consente di determinare chi sta parlando in un clip audio. Il servizio è in grado di verificare e identificare i parlanti in base alle loro caratteristiche vocali univoche, tramite la biometria vocale.
Riconoscimento vocale	Converte i flussi audio in testo in tempo reale o in batch.
Sintesi vocale	Abilitare le applicazioni, gli strumenti o i dispositivi per convertire il testo in un parlato sintetizzato simile a quello umano
Traduzione vocale	Fornisce la traduzione vocale in più lingue e la traduzione vocale dei flussi audio.
Traduzione video	Tradurre e generare video in più lingue automaticamente.

Casi d'uso

La tabella seguente descrive alcuni dei modi in cui è possibile usare Riconoscimento vocale di Intelligenza artificiale di Azure.

Caso d'uso	Funzionalità da usare	Descrizione
Creazione di contenuti audio	Riconoscimento vocale	Le voci neurali possono essere usate per rendere più naturali e coinvolgenti le interazioni con chatbot e assistenti vocali, per convertire testo digitale, come gli e-book, in audiolibri e per migliorare i sistemi dei navigatori per le automobili.
Trascrizioni di call center	Riconoscimento vocale	Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, identificare personalmente le informazioni ed estrarre informazioni dettagliate, ad esempio il sentiment per facilitare il caso d'uso del call center.
e sottotitoli in lingua originale	Riconoscimento vocale	Sincronizza i sottotitoli con l'audio di input, applica filtri volgari, ottieni risultati parziali, applica personalizzazioni e identifica le lingue parlate per scenari multilingue.
Apprendimento linguistico	Riconoscimento vocale	Fornisci feedback sulla valutazione della pronuncia agli studenti di lingue, supporta la trascrizione in tempo reale per le conversazioni di apprendimento a distanza e leggi ad alta voce materiali didattici con voci neurali.
Assistenti vocali	Sintesi vocale	Crea interfacce conversazionali naturali, simili a quelle umane, per le loro applicazioni ed esperienze. La funzione di assistente vocale fornisce un'interazione rapida e affidabile tra un dispositivo e un'implementazione dell'assistente.

Strumento di lettura immersiva

La lettura immersiva, parte dei servizi Azure AI, è stata progettata per l'inclusività e implementa tecniche comprovate per migliorare la comprensione della lettura per nuovi lettori, studenti di lingue e persone con differenze di apprendimento, come la dislessia. Con la libreria client dello strumento di lettura immersiva, è possibile usare la stessa tecnologia usata in Microsoft Word e Microsoft OneNote per offrire un'esperienza ottimale agli utenti del carico di lavoro.

Funzionalità

Di seguito è riportato un elenco delle funzionalità che il carico di lavoro può usare per aiutare gli utenti a raggiungere gli obiettivi di comprensione della lettura.

Isolare il contenuto per migliorare la leggibilità
Visualizzare immagini per le parole e i termini comuni
Aiuta a comprendere le parti del discorso e la grammatica evidenziando verbi, nomi, pronomi e altro ancora
Leggere ad alta voce il contenuto, ad esempio il testo selezionato dall'utente nell'interfaccia utente del carico di lavoro
Traduci i contenuti in molte lingue in tempo reale, il che aiuta a migliorare la comprensione per i lettori che imparano una nuova lingua
Le parole possono essere scomposte in sillabe per migliorare la leggibilità o per scandire le parole nuove

Condividi tramite

Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

Servizi

Voce di Azure AI

Funzionalità

Casi d'uso

Strumento di lettura immersiva

Funzionalità

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

Servizi

Voce di Azure AI

Funzionalità

Casi d'uso

Strumento di lettura immersiva

Funzionalità

Passaggi successivi

Risorse correlate

Commenti e suggerimenti

Risorse aggiuntive