Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure

I servizi di intelligenza artificiale di Azure aiutano i progettisti e gli sviluppatori di carichi di lavoro a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili senza API e modelli predefiniti e personalizzabili.

Questo articolo illustra i servizi di intelligenza artificiale di Azure che offrono funzionalità di riconoscimento vocale e generazione, ad esempio conversioni vocali e sintesi vocale, traduzione audio, riconoscimento del parlante e supporto per la lettura per le persone con differenze di apprendimento.

Nota

Per raccogliere informazioni dettagliate su termini o frasi o ottenere un'analisi contestuale dettagliata della lingua parlata o scritta, vedere Scegliere una tecnologia di elaborazione del linguaggio di destinazione dell'intelligenza artificiale di Azure.

Servizi

I servizi di intelligenza artificiale di Azure seguenti possono fornire funzionalità di riconoscimento vocale e generazione per il carico di lavoro.

  • Riconoscimento vocale di Intelligenza artificiale di Azure offre l'elaborazione del linguaggio naturale per l'analisi del testo.

    • Usare il servizio Voce quando è necessario trascrivere o tradurre il parlato, identificare i parlanti in una conversazione. È anche possibile usare il servizio come alternativa a costi più bassi per la generazione del parlato audio naturale alla qualità superiore Sussurra nei modelli OpenAI.
    • Non usare il servizio Voce per chat, riepilogo del contenuto, moderazione o guida degli utenti tramite script. Usare invece altri modelli per tali elementi.
  • La lettura immersiva è uno strumento che implementa tecniche comprovate per migliorare la comprensione della lettura per lettori emergenti, studenti di lingue e persone con differenze nell'apprendimento.

    • Usare Strumento di lettura immersiva per offrire un'esperienza di leggibilità migliorata adattata agli studenti di lingue o alle persone con differenze di apprendimento.
    • Non usare Strumento di lettura immersiva per i casi d'uso tradizionali di sintesi vocale.

Voce di Azure AI

Azure AI Speech offre funzionalità di sintesi vocale e sintesi vocale con una risorsa Voce. È possibile convertire la voce in testo scritto con elevata precisione, produrre sintesi vocale che abbia un suono naturale, tradurre audio parlato e usare il riconoscimento del parlante durante le conversazioni. Crea voci personalizzate, aggiungi parole specifiche al vocabolario di base o crea modelli personalizzati. Esegui il servizio Voce ovunque, sul cloud o nella rete perimetrale in contenitori.

Il riconoscimento vocale è disponibile per molte lingue e aree geografiche.

Funzionalità

La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Voce di Intelligenza artificiale di Azure.

Funzionalità Descrizione
Trascrizione batch Trascrivere una grande quantità di dati audio nell'archiviazione. Sia l'API REST del riconoscimento vocale che l’interfaccia della riga di comando (CLI) di Voce supportano la trascrizione batch.
Riconoscimento delle finalità Una finalità è qualcosa che l'utente desidera fare: prenotare un volo, controllare il meteo o effettuare una chiamata. Con il riconoscimento delle finalità, le applicazioni, gli strumenti e i dispositivi possono determinare ciò che l'utente vuole avviare o eseguire in base alle opzioni. Definire la finalità dell'utente nel modello CLU (Intent Recognizer) o Conversational Language Understanding( CLU).
Valutazione della pronuncia Valuta la pronuncia valuta la pronuncia vocale e fornisce ai parlanti un feedback sull'accuratezza e sulla scorrevolezza dell'audio parlato.
Riconoscimento del parlante Il riconoscimento del parlante consente di determinare chi sta parlando in un clip audio. Il servizio è in grado di verificare e identificare i parlanti in base alle loro caratteristiche vocali univoche, tramite la biometria vocale.
Riconoscimento vocale Converte i flussi audio in testo in tempo reale o in batch.
Sintesi vocale Abilitare le applicazioni, gli strumenti o i dispositivi per convertire il testo in un parlato sintetizzato simile a quello umano
Traduzione vocale Fornisce la traduzione vocale in più lingue e la traduzione vocale dei flussi audio.
Traduzione video Tradurre e generare video in più lingue automaticamente.

Casi d'uso

La tabella seguente descrive alcuni dei modi in cui è possibile usare Riconoscimento vocale di Intelligenza artificiale di Azure.

Caso d'uso Funzionalità da usare Descrizione
Creazione di contenuti audio Riconoscimento vocale Le voci neurali possono essere usate per rendere più naturali e coinvolgenti le interazioni con chatbot e assistenti vocali, per convertire testo digitale, come gli e-book, in audiolibri e per migliorare i sistemi dei navigatori per le automobili.
Trascrizioni di call center Riconoscimento vocale Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, identificare personalmente le informazioni ed estrarre informazioni dettagliate, ad esempio il sentiment per facilitare il caso d'uso del call center.
e sottotitoli in lingua originale Riconoscimento vocale Sincronizza i sottotitoli con l'audio di input, applica filtri volgari, ottieni risultati parziali, applica personalizzazioni e identifica le lingue parlate per scenari multilingue.
Apprendimento linguistico Riconoscimento vocale Fornisci feedback sulla valutazione della pronuncia agli studenti di lingue, supporta la trascrizione in tempo reale per le conversazioni di apprendimento a distanza e leggi ad alta voce materiali didattici con voci neurali.
Assistenti vocali Sintesi vocale Crea interfacce conversazionali naturali, simili a quelle umane, per le loro applicazioni ed esperienze. La funzione di assistente vocale fornisce un'interazione rapida e affidabile tra un dispositivo e un'implementazione dell'assistente.

Strumento di lettura immersiva

La lettura immersiva, parte dei servizi Azure AI, è stata progettata per l'inclusività e implementa tecniche comprovate per migliorare la comprensione della lettura per nuovi lettori, studenti di lingue e persone con differenze di apprendimento, come la dislessia. Con la libreria client dello strumento di lettura immersiva, è possibile usare la stessa tecnologia usata in Microsoft Word e Microsoft OneNote per offrire un'esperienza ottimale agli utenti del carico di lavoro.

Funzionalità

Di seguito è riportato un elenco delle funzionalità che il carico di lavoro può usare per aiutare gli utenti a raggiungere gli obiettivi di comprensione della lettura.

  • Isolare il contenuto per migliorare la leggibilità
  • Visualizzare immagini per le parole e i termini comuni
  • Aiuta a comprendere le parti del discorso e la grammatica evidenziando verbi, nomi, pronomi e altro ancora
  • Leggere ad alta voce il contenuto, ad esempio il testo selezionato dall'utente nell'interfaccia utente del carico di lavoro
  • Traduci i contenuti in molte lingue in tempo reale, il che aiuta a migliorare la comprensione per i lettori che imparano una nuova lingua
  • Le parole possono essere scomposte in sillabe per migliorare la leggibilità o per scandire le parole nuove

Passaggi successivi