Scegliere una tecnologia di riconoscimento vocale e generazione di intelligenza artificiale di Azure
I servizi di intelligenza artificiale di Azure aiutano i progettisti e gli sviluppatori di carichi di lavoro a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili senza API e modelli predefiniti e personalizzabili.
Questo articolo illustra i servizi di intelligenza artificiale di Azure che offrono funzionalità di riconoscimento vocale e generazione, ad esempio conversioni vocali e sintesi vocale, traduzione audio, riconoscimento del parlante e supporto per la lettura per le persone con differenze di apprendimento.
Nota
Per raccogliere informazioni dettagliate su termini o frasi o ottenere un'analisi contestuale dettagliata della lingua parlata o scritta, vedere Scegliere una tecnologia di elaborazione del linguaggio di destinazione dell'intelligenza artificiale di Azure.
Servizi
I servizi di intelligenza artificiale di Azure seguenti possono fornire funzionalità di riconoscimento vocale e generazione per il carico di lavoro.
Riconoscimento vocale di Intelligenza artificiale di Azure offre l'elaborazione del linguaggio naturale per l'analisi del testo.
- Usare il servizio Voce quando è necessario trascrivere o tradurre il parlato, identificare i parlanti in una conversazione. È anche possibile usare il servizio come alternativa a costi più bassi per la generazione del parlato audio naturale alla qualità superiore Sussurra nei modelli OpenAI.
- Non usare il servizio Voce per chat, riepilogo del contenuto, moderazione o guida degli utenti tramite script. Usare invece altri modelli per tali elementi.
La lettura immersiva è uno strumento che implementa tecniche comprovate per migliorare la comprensione della lettura per lettori emergenti, studenti di lingue e persone con differenze nell'apprendimento.
- Usare Strumento di lettura immersiva per offrire un'esperienza di leggibilità migliorata adattata agli studenti di lingue o alle persone con differenze di apprendimento.
- Non usare Strumento di lettura immersiva per i casi d'uso tradizionali di sintesi vocale.
Voce di Azure AI
Azure AI Speech offre funzionalità di sintesi vocale e sintesi vocale con una risorsa Voce. È possibile convertire la voce in testo scritto con elevata precisione, produrre sintesi vocale che abbia un suono naturale, tradurre audio parlato e usare il riconoscimento del parlante durante le conversazioni. Crea voci personalizzate, aggiungi parole specifiche al vocabolario di base o crea modelli personalizzati. Esegui il servizio Voce ovunque, sul cloud o nella rete perimetrale in contenitori.
Il riconoscimento vocale è disponibile per molte lingue e aree geografiche.
Funzionalità
La tabella seguente fornisce un elenco delle funzionalità disponibili nel servizio Voce di Intelligenza artificiale di Azure.
Funzionalità | Descrizione |
---|---|
Trascrizione batch | Trascrivere una grande quantità di dati audio nell'archiviazione. Sia l'API REST del riconoscimento vocale che l’interfaccia della riga di comando (CLI) di Voce supportano la trascrizione batch. |
Riconoscimento delle finalità | Una finalità è qualcosa che l'utente desidera fare: prenotare un volo, controllare il meteo o effettuare una chiamata. Con il riconoscimento delle finalità, le applicazioni, gli strumenti e i dispositivi possono determinare ciò che l'utente vuole avviare o eseguire in base alle opzioni. Definire la finalità dell'utente nel modello CLU (Intent Recognizer) o Conversational Language Understanding( CLU). |
Valutazione della pronuncia | Valuta la pronuncia valuta la pronuncia vocale e fornisce ai parlanti un feedback sull'accuratezza e sulla scorrevolezza dell'audio parlato. |
Riconoscimento del parlante | Il riconoscimento del parlante consente di determinare chi sta parlando in un clip audio. Il servizio è in grado di verificare e identificare i parlanti in base alle loro caratteristiche vocali univoche, tramite la biometria vocale. |
Riconoscimento vocale | Converte i flussi audio in testo in tempo reale o in batch. |
Sintesi vocale | Abilitare le applicazioni, gli strumenti o i dispositivi per convertire il testo in un parlato sintetizzato simile a quello umano |
Traduzione vocale | Fornisce la traduzione vocale in più lingue e la traduzione vocale dei flussi audio. |
Traduzione video | Tradurre e generare video in più lingue automaticamente. |
Casi d'uso
La tabella seguente descrive alcuni dei modi in cui è possibile usare Riconoscimento vocale di Intelligenza artificiale di Azure.
Caso d'uso | Funzionalità da usare | Descrizione |
---|---|---|
Creazione di contenuti audio | Riconoscimento vocale | Le voci neurali possono essere usate per rendere più naturali e coinvolgenti le interazioni con chatbot e assistenti vocali, per convertire testo digitale, come gli e-book, in audiolibri e per migliorare i sistemi dei navigatori per le automobili. |
Trascrizioni di call center | Riconoscimento vocale | Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, identificare personalmente le informazioni ed estrarre informazioni dettagliate, ad esempio il sentiment per facilitare il caso d'uso del call center. |
e sottotitoli in lingua originale | Riconoscimento vocale | Sincronizza i sottotitoli con l'audio di input, applica filtri volgari, ottieni risultati parziali, applica personalizzazioni e identifica le lingue parlate per scenari multilingue. |
Apprendimento linguistico | Riconoscimento vocale | Fornisci feedback sulla valutazione della pronuncia agli studenti di lingue, supporta la trascrizione in tempo reale per le conversazioni di apprendimento a distanza e leggi ad alta voce materiali didattici con voci neurali. |
Assistenti vocali | Sintesi vocale | Crea interfacce conversazionali naturali, simili a quelle umane, per le loro applicazioni ed esperienze. La funzione di assistente vocale fornisce un'interazione rapida e affidabile tra un dispositivo e un'implementazione dell'assistente. |
Strumento di lettura immersiva
La lettura immersiva, parte dei servizi Azure AI, è stata progettata per l'inclusività e implementa tecniche comprovate per migliorare la comprensione della lettura per nuovi lettori, studenti di lingue e persone con differenze di apprendimento, come la dislessia. Con la libreria client dello strumento di lettura immersiva, è possibile usare la stessa tecnologia usata in Microsoft Word e Microsoft OneNote per offrire un'esperienza ottimale agli utenti del carico di lavoro.
Funzionalità
Di seguito è riportato un elenco delle funzionalità che il carico di lavoro può usare per aiutare gli utenti a raggiungere gli obiettivi di comprensione della lettura.
- Isolare il contenuto per migliorare la leggibilità
- Visualizzare immagini per le parole e i termini comuni
- Aiuta a comprendere le parti del discorso e la grammatica evidenziando verbi, nomi, pronomi e altro ancora
- Leggere ad alta voce il contenuto, ad esempio il testo selezionato dall'utente nell'interfaccia utente del carico di lavoro
- Traduci i contenuti in molte lingue in tempo reale, il che aiuta a migliorare la comprensione per i lettori che imparano una nuova lingua
- Le parole possono essere scomposte in sillabe per migliorare la leggibilità o per scandire le parole nuove
Passaggi successivi
- Informazioni sul Servizio di riconoscimento vocale
- Percorso di apprendimento: sviluppare soluzioni di elaborazione del linguaggio naturale con Servizi di Azure AI