Domande frequenti sul riconoscimento vocale

Questo articolo presenta le risposte ad alcune domande comuni sulla funzionalità di Riconoscimento vocale. Se certe domande non hanno trovato risposta in questo articolo, consultare altre opzioni di supporto.

Generali

Qual è la differenza tra un modello di base e un modello di riconoscimento vocale personalizzato?

Un modello di riconoscimento vocale di base viene sottoposto a training con dati di proprietà di Microsoft ed è già distribuito nel cloud. È possibile usare un modello personalizzato per adattarlo a un ambiente con rumori di fondo specifici o in cui viene usata una determinata lingua. Fabbriche, automobili o strade rumorose richiederebbero un modello acustico adattato. In campi come la biologia, la fisica, la radiologia, i nomi di prodotto e gli acronimi personalizzati sarebbe necessario un modello linguistico adattato. Se si vuole eseguire il training di un modello personalizzato, è bene iniziare con il testo correlato per migliorare il riconoscimento di termini e frasi speciali.

Da dove si inizia se si vuole usare un modello di base?

Prima di tutto, ottenere un'area e una chiave della risorsa per il servizio Voce nel portale di Azure. Se si vogliono effettuare chiamate REST a un modello di base predistribuito, vedere la documentazione delle API REST. Se si vogliono usare WebSocket, scaricare Speech SDK.

È sempre necessario creare un modello conversione voce/testo personalizzato?

No. Se l'applicazione usa un linguaggio quotidiano generico, non è necessario personalizzare un modello. Se l'applicazione viene usata in un ambiente in cui il rumore di fondo è scarso o addirittura assente, non è necessario personalizzare un modello.

È possibile distribuire modelli di base e personalizzati nel portale e quindi sottoporli a test di accuratezza. È possibile usare questa funzionalità per misurare l'accuratezza di un modello di base rispetto a un modello personalizzato.

In che modo si capisce quando l'elaborazione del set di dati o del modello è completa?

Attualmente l'unica indicazione è lo stato del modello o del set di dati nella tabella. Quando l'elaborazione è completa, lo stato è Succeded (Operazione completata).

È possibile creare più modelli?

Il numero di modelli che possono essere presenti nella raccolta è illimitato.

Si comprende di aver commesso un errore. come si annulla un'importazione di dati o la creazione di un modello in corso?

Al momento non è possibile eseguire il rollback di un processo di adattamento di un modello acustico o linguistico. I modelli e i dati importati possono essere eliminati quando sono in uno stato terminale.

Per ogni frase vengono restituiti diversi risultati con il formato di output dettagliato. Quale è più indicato usare?

Usare sempre il primo risultato, anche se un altro ("N risultati migliori") può avere un valore di attendibilità più elevato. Il servizio Voce considera il primo risultato quello migliore. Il risultato può anche essere una stringa vuota se non è stato riconosciuto alcun input vocale.

Gli altri risultati sono probabilmente peggiori e possono non essere del tutto corretti per quanto riguarda maiuscole e punteggiatura. Questi risultati sono più utili in scenari speciali, ad esempio per offrire agli utenti la possibilità di selezionare le correzioni da un elenco o gestire comandi riconosciuti in modo non corretto.

Perché sono disponibili più modelli di base?

È possibile scegliere tra più modelli di base nel servizio Voce. Ogni nome di modello contiene la data in cui è stato aggiunto. Quando si avvia il training di un modello personalizzato, usare il modello più recente per ottenere la massima accuratezza. I modelli di base meno recenti vengono mantenuti per un certo periodo di tempo dopo che ne viene reso uno nuovo. È possibile continuare a usare il modello fino a quando non viene ritirato; vedere Ciclo di vita dei modelli e degli endpoint. È comunque consigliabile passare al modello di base più recente per ottenere una maggiore accuratezza.

È possibile aggiornare un modello esistente (stacking di modelli)?

Non è possibile aggiornare un modello esistente. Come soluzione, combinare il set di dati precedente con quello nuovo e riadattarlo.

I set di dati precedente e nuovo devono essere combinati in un unico file ZIP (per dati acustici) o in un file con estensione txt (per dati linguistici). Al termine dell'adattamento, ridistribuire il nuovo modello aggiornato per ottenere un nuovo endpoint.

Quando è disponibile una nuova versione di un modello di base, la distribuzione viene aggiornata automaticamente?

Le distribuzioni non vengono aggiornate automaticamente.

Se un modello è stato adattato e distribuito, la distribuzione esistente rimane invariata. È possibile ritirare il modello distribuito, riadattarlo usando la versione più recente del modello di base e quindi ridistribuirlo per ottenere maggiore accuratezza.

I modelli di base e quelli personalizzati vengono ritirati dopo un certo periodo di tempo; vedere Ciclo di vita dei modelli e degli endpoint.

È possibile scaricare il modello ed eseguirlo in locale?

È possibile eseguire un modello personalizzato in locale in un contenitore Docker.

È possibile copiare o spostare set di dati, modelli e distribuzioni in un'altra area o sottoscrizione?

È possibile usare l'API REST Models_Copy per copiare un modello personalizzato in un'altra area o sottoscrizione. Non è possibile copiare set di dati e distribuzioni. È possibile importare di nuovo un set di dati in un'altra sottoscrizione e creare endpoint usando le copie del modello.

Le richieste vengono registrate?

Per impostazione predefinita, le richieste non vengono registrate (né come audio né come trascrizione). Se necessario, è possibile selezionare l'opzione Registrare il contenuto in questo endpoint quando si crea un endpoint personalizzato. È anche possibile abilitare la registrazione audio in Speech SDK per ogni richiesta, senza dover creare un endpoint personalizzato. In entrambi i casi, i risultati audio e del riconoscimento verranno salvati in risorse di archiviazione sicure. Le sottoscrizioni che usano risorse di archiviazione di proprietà di Microsoft saranno disponibili per 30 giorni.

È possibile esportare i file registrati nella pagina di distribuzione in Speech Studio se si usa un endpoint personalizzato con l'opzione Registrare il contenuto in questo endpoint abilitata. Se la registrazione audio è abilitata tramite l'SDK, chiamare l'API per accedere ai file. È anche possibile usare l'API per eliminare i log in qualsiasi momento.

le richieste sono limitate?

Per altre informazioni, vedere Quote e limiti del servizio Voce.

Come vengono addebitati i costi per l'audio a due canali?

Se si invia ogni canale separatamente nel rispettivo file, viene addebitato il costo per la durata dell’audio di ogni file. Se si invia un singolo file con i canali combinati in multiplex, viene addebitato il costo per la durata del singolo file. Per altre informazioni sui prezzi, vedere la pagina dei prezzi dei Servizi di Azure AI.

Importante

In caso di altri problemi di privacy che impediscono l'uso del servizio Riconoscimento vocale personalizzato, contattare uno dei canali di supporto.

Aumento della concorrenza

Per altre informazioni, vedere Quote e limiti del servizio Voce.

Importare i dati

Qual è il limite applicato alla dimensione di un set di dati e qual è il motivo di questo limite?

Il limite è dovuto alla restrizione applicata alle dimensioni dei file per il caricamento HTTP. Per informazioni sul limite effettivo, vedere Quote e limiti del servizio Voce. È possibile suddividere i dati in più set di dati e selezionarli tutti per eseguire il training del modello.

È possibile comprimere i file di testo in modo da caricare un file di testo più grande?

No. Attualmente sono ammessi solo file di testo non compressi.

Il report sui dati segnala che alcune espressioni hanno avuto esito negativo. Qual è il problema?

Se non viene caricato il 100% delle espressioni in un file, non è un problema. Se la grande maggioranza, ad esempio più del 95%, delle espressioni in un set di dati acustico o linguistico viene importata correttamente, è possibile usare il set di dati. Tuttavia, è consigliabile cercare di capire il motivo per cui le espressioni non sono state caricate e quindi apportare le correzioni necessarie. I problemi più comuni, ad esempio gli errori di formattazione, sono facili da risolvere.

Creazione di un modello acustico

Quanti dati acustici sono necessari?

È consigliabile iniziare con dati acustici di durata compresa tra 30 minuti e un'ora.

Quali dati è necessario raccogliere?

Raccogliere dati più vicini possibile allo scenario e al caso d'uso dell'applicazione. La raccolta dei dati deve corrispondere all'applicazione e agli utenti di destinazione in termini di dispositivo o dispositivi, ambienti e tipi di parlanti. In genere, è consigliabile raccogliere dati dalla più ampia varietà di parlanti possibile.

Come si devono raccogliere i dati acustici?

È possibile creare un'applicazione di raccolta dati autonoma o usare un software di registrazione audio standard. È anche possibile creare una versione dell'applicazione in grado di registrare e quindi usare i dati audio.

È necessario trascrivere personalmente i dati di adattamento?

Sì. È possibile farlo personalmente o usando un servizio di trascrizione professionale. Alcuni utenti preferiscono usare sistemi di trascrizione professionali, mentre altri usano il crowdsourcing o trascrivono personalmente i dati.

Quanto tempo è necessario per eseguire il training di un modello personalizzato con dati audio?

Il training di un modello con dati audio può richiedere un processo dispendioso in termini di tempo. A seconda della quantità di dati, possono essere necessari diversi giorni per creare un modello personalizzato. Se non è possibile terminare entro una settimana, il servizio può interrompere l'operazione di training e segnalare un errore del modello.

In generale, il servizio Voce elabora circa 10 ore di dati audio al giorno nelle aree in cui è disponibile hardware dedicato. Il training con solo testo è molto più veloce e in genere termina entro pochi minuti.

Usare una delle aree in cui è disponibile hardware dedicato per il training. Il servizio Voce usa fino a 100 ore di dati audio per eseguire il training in queste aree.

Test di accuratezza

Che cos'è la percentuale di parole errate e come viene calcolata?

La percentuale di parole errate è la metrica di valutazione per il riconoscimento vocale. Viene calcolata come numero totale di errori (inserimenti, eliminazioni e sostituzioni) diviso per il numero totale di parole nella trascrizione di riferimento. Per altre informazioni, vedere Modello di test quantitativo.

Come è possibile determinare se i risultati di un test di accuratezza sono positivi?

I risultati mostrano un confronto tra il modello di base e quello personalizzato. Affinché la personalizzazione sia giustificata, il modello personalizzato deve essere più efficiente del modello di base.

Come si determina la percentuale di parole errate in un modello di base per verificare se vi è stato un miglioramento?

I risultati dei test offline mostrano l'accuratezza di base del modello personalizzato e il miglioramento rispetto al modello di base.

Creazione di un modello linguistico

Quanti dati di testo è necessario caricare?

Dipende da quanto il vocabolario e le frasi usate nell'applicazione differiscono dai modelli linguistici iniziali. Per tutte le parole nuove è utile specificare il maggior numero possibile di esempi di utilizzo. Per le frasi frequenti usate nell'applicazione, tra cui le frasi nei dati linguistici, è utile fornire molti esempi, perché consente di indicare al sistema di fare attenzione anche a questi termini. È prassi comune includere almeno 100 o, in genere, diverse centinaia di espressioni nel set di dati linguistico. Se inoltre si prevede che alcuni tipi di query siano più comuni di altri, è possibile inserire nel set di dati varie copie delle query più comuni.

È possibile caricare semplicemente un elenco di parole?

Caricando un elenco di parole, queste vengono aggiunte nel vocabolario, ma il sistema non apprende come vengono usate normalmente. Se si forniscono espressioni complete o parziali, ovvero frasi comunemente usate dagli utenti, il modello linguistico può apprendere le nuove parole e come vengono usate. Il modello linguistico personalizzato è utile non solo per aggiungere nuove parole nel sistema ma anche per modificare la probabilità di parole note per l'applicazione. L'indicazione di espressioni complete favorisce l'apprendimento da parte del sistema.