Integrare e usare riconoscimento vocale e trascrizione

2 minuti

Il servizio Voce combina il riconoscimento vocale, la sintesi vocale e la traduzione vocale in un'unica sottoscrizione di Azure. È facile abilitare le applicazioni, gli strumenti e i dispositivi con l'interfaccia della riga di comando di Voce, Speech SDK, Speech Devices SDK, Speech Studio o le API REST.

Riconoscimento vocale

Il servizio Riconoscimento del parlante fornisce algoritmi che verificano e identificano i parlanti in base alle relative caratteristiche vocali univoche mediante dati biometrici vocali. È usato per rispondere alla domanda "chi sta parlando?" In primo luogo, si forniscono dati di training audio per un singolo altoparlante, che crea un profilo di registrazione in base alle caratteristiche uniche della voce dell'altoparlante. È quindi possibile fare un confronto incrociato tra campioni vocali audio e questo profilo per verificare se il parlante sia la stessa persona (verifica voce) oppure fare un controllo incrociato tra esempi di voce audio e un gruppo di profili voce registrati per verificare se corrispondono a un profilo nel gruppo (identificazione voce). Al contrario, la diarizzazione voce usa un'operazione batch per raggruppare i flussi audio in base all'identità del parlante, vale a dire che i diversi parlanti hanno segmenti audio propri.

Trascrizione

La trascrizione è un set di operazioni API REST che consentono di trascrivere audio nell'archiviazione. È possibile puntare a file audio con un URI di firma di accesso condiviso (SAS) e ricevere in modo asincrono i risultati della trascrizione.

Comandi vocali MRTK

Come Windows Speech Input, i provider di input vocale non creano controller, ma consentono invece di definire parole chiave che generano eventi di input vocale quando vengono riconosciute. Le parole chiave verranno configurate per il riconoscimento nel profilo dei comandi vocali nel profilo di sistema di input. Per ogni comando, è anche possibile:

Selezionare un'azione di input per eseguire il mapping al comando. Così facendo è possibile, ad esempio, fare in modo che la selezione parola chiave abbia lo stesso effetto di un clic sinistro del mouse eseguendo il mapping di entrambi alla stessa azione.
Specificare un codice chiave che produce lo stesso evento di riconoscimento vocale quando viene premuto.
Aggiungere una chiave di localizzazione usata nelle app UWP per ottenere la parola chiave localizzata dalle risorse dell'app.

Speech SDK

Il Software Development Kit (SDK) Voce espone molte funzionalità del servizio voce per consentire lo sviluppo di applicazioni abilitate per il riconoscimento vocale. L'SDK Voce è disponibile in molti linguaggi di programmazione e in tutte le piattaforme. L'SDK Voce espone molte funzionalità (anche se non tutte) dal servizio Voce. Le funzionalità dell'SDK Voce sono spesso associate a scenari. Speech SDK è ideale per scenari in tempo reale e non in tempo reale, usando dispositivi locali, file, archiviazione BLOB di Azure e anche flussi di input e output. Qualora per uno scenario non fosse possibile usare l'SDK Voce, scegliere l'API REST come alternativa.

Percezione spaziale

La percezione spaziale offre un accesso programmatico a dati di mapping spaziale, fornendo alle app della realtà mista informazioni sulle superfici in aree specificate dall'applicazione dello spazio intorno all'utente. Dichiarare la funzionalità di percezione spaziale solo quando l'app userà in modo esplicito queste mesh di superficie. La funzionalità non è necessaria per le app di realtà mista per eseguire il rendering olografico in base alla posizione head dell'utente.

Server client Internet

Il server client Internet consente scenari peer-to-peer (P2P) in cui l'app deve rimanere in ascolto delle connessioni di rete in ingresso.

Server client di rete privata

Il server client di rete privata offre l'accesso in ingresso e in uscita alle reti domestiche e di ufficio attraverso il firewall. In genere questa funzionalità viene usata per i giochi che comunicano tramite la rete locale (LAN) e per le applicazioni che condividono dati tra diversi dispositivi locali.