Q: Quando è disponibile una nuova versione di un modello di base, la distribuzione viene aggiornata automaticamente?

Le distribuzioni non vengono aggiornate automaticamente. Se un modello è stato adattato e distribuito, la distribuzione esistente rimane invariata. È possibile ritirare il modello distribuito, riadattarlo usando la versione più recente del modello di base e quindi ridistribuirlo per ottenere maggiore accuratezza. I modelli di base e quelli personalizzati vengono ritirati dopo un certo periodo di tempo; vedere Ciclo di vita dei modelli e degli endpoint .

Question 1

Qual è la differenza tra un modello di base e un modello di riconoscimento vocale personalizzato?

Accepted Answer

Un modello di riconoscimento vocale di base viene sottoposto a training con dati di proprietà di Microsoft ed è già distribuito nel cloud. È possibile usare un modello personalizzato per adattarlo a un ambiente con rumori di fondo specifici o in cui viene usata una determinata lingua. Fabbriche, automobili o strade rumorose richiederebbero un modello acustico adattato. In campi come la biologia, la fisica, la radiologia, i nomi di prodotto e gli acronimi personalizzati sarebbe necessario un modello linguistico adattato. Se si vuole eseguire il training di un modello personalizzato, è bene iniziare con il testo correlato per migliorare il riconoscimento di termini e frasi speciali.

Question 2

Da dove si inizia se si vuole usare un modello di base?

Accepted Answer

Prima di tutto, ottenere un'area e una chiave della risorsa per il servizio Voce nel portale di Azure. Se si vogliono effettuare chiamate REST a un modello di base predistribuito, vedere la documentazione delle API REST. Se si vogliono usare WebSocket, scaricare Speech SDK.

Question 3

È sempre necessario creare un modello conversione voce/testo personalizzato?

Accepted Answer

No. Se l'applicazione usa un linguaggio quotidiano generico, non è necessario personalizzare un modello. Se l'applicazione viene usata in un ambiente in cui il rumore di fondo è scarso o addirittura assente, non è necessario personalizzare un modello.

È possibile distribuire modelli di base e personalizzati nel portale e quindi sottoporli a test di accuratezza. È possibile usare questa funzionalità per misurare l'accuratezza di un modello di base rispetto a un modello personalizzato.

Question 4

In che modo si capisce quando l'elaborazione del set di dati o del modello è completa?

Accepted Answer

Attualmente l'unica indicazione è lo stato del modello o del set di dati nella tabella. Quando l'elaborazione è completa, lo stato è Succeded (Operazione completata).

Question 5

È possibile creare più modelli?

Accepted Answer

Il numero di modelli che possono essere presenti nella raccolta è illimitato.

Question 6

Si comprende di aver commesso un errore. come si annulla un'importazione di dati o la creazione di un modello in corso?

Accepted Answer

Al momento non è possibile eseguire il rollback di un processo di adattamento di un modello acustico o linguistico. I modelli e i dati importati possono essere eliminati quando sono in uno stato terminale.

Question 7

Per ogni frase vengono restituiti diversi risultati con il formato di output dettagliato. Quale è più indicato usare?

Accepted Answer

Usare sempre il primo risultato, anche se un altro ("N risultati migliori") può avere un valore di attendibilità più elevato. Il servizio Voce considera il primo risultato quello migliore. Il risultato può anche essere una stringa vuota se non è stato riconosciuto alcun input vocale.

Gli altri risultati sono probabilmente peggiori e possono non essere del tutto corretti per quanto riguarda maiuscole e punteggiatura. Questi risultati sono più utili in scenari speciali, ad esempio per offrire agli utenti la possibilità di selezionare le correzioni da un elenco o gestire comandi riconosciuti in modo non corretto.

Question 8

Perché sono disponibili più modelli di base?

Accepted Answer

È possibile scegliere tra più modelli di base nel servizio Voce. Ogni nome di modello contiene la data in cui è stato aggiunto. Quando si avvia il training di un modello personalizzato, usare il modello più recente per ottenere la massima accuratezza. I modelli di base meno recenti vengono mantenuti per un certo periodo di tempo dopo che ne viene reso uno nuovo. È possibile continuare a usare il modello fino a quando non viene ritirato; vedere Ciclo di vita dei modelli e degli endpoint. È comunque consigliabile passare al modello di base più recente per ottenere una maggiore accuratezza.

Question 9

È possibile aggiornare un modello esistente (stacking di modelli)?

Accepted Answer

Non è possibile aggiornare un modello esistente. Come soluzione, combinare il set di dati precedente con quello nuovo e riadattarlo.

I set di dati precedente e nuovo devono essere combinati in un unico file ZIP (per dati acustici) o in un file con estensione txt (per dati linguistici). Al termine dell'adattamento, ridistribuire il nuovo modello aggiornato per ottenere un nuovo endpoint.

Question 10

Quando è disponibile una nuova versione di un modello di base, la distribuzione viene aggiornata automaticamente?

Accepted Answer

Le distribuzioni non vengono aggiornate automaticamente.

Se un modello è stato adattato e distribuito, la distribuzione esistente rimane invariata. È possibile ritirare il modello distribuito, riadattarlo usando la versione più recente del modello di base e quindi ridistribuirlo per ottenere maggiore accuratezza.

I modelli di base e quelli personalizzati vengono ritirati dopo un certo periodo di tempo; vedere Ciclo di vita dei modelli e degli endpoint.

Question 11

È possibile scaricare il modello ed eseguirlo in locale?

Accepted Answer

È possibile eseguire un modello personalizzato in locale in un contenitore Docker.

Question 12

È possibile copiare o spostare set di dati, modelli e distribuzioni in un'altra area o sottoscrizione?

Accepted Answer

È possibile usare l'API REST Models_Copy per copiare un modello personalizzato in un'altra area o sottoscrizione. Non è possibile copiare set di dati e distribuzioni. È possibile importare di nuovo un set di dati in un'altra sottoscrizione e creare endpoint usando le copie del modello.

Question 13

Le richieste vengono registrate?

Accepted Answer

Per impostazione predefinita, le richieste non vengono registrate (né come audio né come trascrizione). Se necessario, è possibile selezionare l'opzione Registrare il contenuto in questo endpoint quando si crea un endpoint personalizzato. È anche possibile abilitare la registrazione audio in Speech SDK per ogni richiesta, senza dover creare un endpoint personalizzato. In entrambi i casi, i risultati audio e del riconoscimento verranno salvati in risorse di archiviazione sicure. Le sottoscrizioni che usano risorse di archiviazione di proprietà di Microsoft saranno disponibili per 30 giorni.

È possibile esportare i file registrati nella pagina di distribuzione in Speech Studio se si usa un endpoint personalizzato con l'opzione Registrare il contenuto in questo endpoint abilitata. Se la registrazione audio è abilitata tramite l'SDK, chiamare l'API per accedere ai file. È anche possibile usare l'API per eliminare i log in qualsiasi momento.

Question 14

le richieste sono limitate?

Accepted Answer

Per altre informazioni, vedere Quote e limiti del servizio Voce.

Question 15

Come vengono addebitati i costi per l'audio a due canali?

Accepted Answer

Se si invia ogni canale separatamente nel rispettivo file, viene addebitato il costo per la durata dell’audio di ogni file. Se si invia un singolo file con i canali combinati in multiplex, viene addebitato il costo per la durata del singolo file. Per altre informazioni sui prezzi, vedere la pagina dei prezzi dei Servizi di Azure AI.

Importante

In caso di altri problemi di privacy che impediscono l'uso del servizio Riconoscimento vocale personalizzato, contattare uno dei canali di supporto.

Aumento della concorrenza

Per altre informazioni, vedere Quote e limiti del servizio Voce.

Question 16

Qual è il limite applicato alla dimensione di un set di dati e qual è il motivo di questo limite?

Accepted Answer

Il limite è dovuto alla restrizione applicata alle dimensioni dei file per il caricamento HTTP. Per informazioni sul limite effettivo, vedere Quote e limiti del servizio Voce. È possibile suddividere i dati in più set di dati e selezionarli tutti per eseguire il training del modello.

Question 17

È possibile comprimere i file di testo in modo da caricare un file di testo più grande?

Accepted Answer

No. Attualmente sono ammessi solo file di testo non compressi.

Question 18

Il report sui dati segnala che alcune espressioni hanno avuto esito negativo. Qual è il problema?

Accepted Answer

Se non viene caricato il 100% delle espressioni in un file, non è un problema. Se la grande maggioranza, ad esempio più del 95%, delle espressioni in un set di dati acustico o linguistico viene importata correttamente, è possibile usare il set di dati. Tuttavia, è consigliabile cercare di capire il motivo per cui le espressioni non sono state caricate e quindi apportare le correzioni necessarie. I problemi più comuni, ad esempio gli errori di formattazione, sono facili da risolvere.

Question 19

Quanti dati acustici sono necessari?

Accepted Answer

È consigliabile iniziare con dati acustici di durata compresa tra 30 minuti e un'ora.

Question 20

Quali dati è necessario raccogliere?

Accepted Answer

Raccogliere dati più vicini possibile allo scenario e al caso d'uso dell'applicazione. La raccolta dei dati deve corrispondere all'applicazione e agli utenti di destinazione in termini di dispositivo o dispositivi, ambienti e tipi di parlanti. In genere, è consigliabile raccogliere dati dalla più ampia varietà di parlanti possibile.

Question 21

Come si devono raccogliere i dati acustici?

Accepted Answer

È possibile creare un'applicazione di raccolta dati autonoma o usare un software di registrazione audio standard. È anche possibile creare una versione dell'applicazione in grado di registrare e quindi usare i dati audio.

Question 22

È necessario trascrivere personalmente i dati di adattamento?

Accepted Answer

Sì. È possibile farlo personalmente o usando un servizio di trascrizione professionale. Alcuni utenti preferiscono usare sistemi di trascrizione professionali, mentre altri usano il crowdsourcing o trascrivono personalmente i dati.

Question 23

Quanto tempo è necessario per eseguire il training di un modello personalizzato con dati audio?

Accepted Answer

Il training di un modello con dati audio può richiedere un processo dispendioso in termini di tempo. A seconda della quantità di dati, possono essere necessari diversi giorni per creare un modello personalizzato. Se non è possibile terminare entro una settimana, il servizio può interrompere l'operazione di training e segnalare un errore del modello.

In generale, il servizio Voce elabora circa 10 ore di dati audio al giorno nelle aree in cui è disponibile hardware dedicato. Il training con solo testo è molto più veloce e in genere termina entro pochi minuti.

Usare una delle aree in cui è disponibile hardware dedicato per il training. Il servizio Voce usa fino a 100 ore di dati audio per eseguire il training in queste aree.

Question 24

Che cos'è la percentuale di parole errate e come viene calcolata?

Accepted Answer

La percentuale di parole errate è la metrica di valutazione per il riconoscimento vocale. Viene calcolata come numero totale di errori (inserimenti, eliminazioni e sostituzioni) diviso per il numero totale di parole nella trascrizione di riferimento. Per altre informazioni, vedere Modello di test quantitativo.

Question 25

Come è possibile determinare se i risultati di un test di accuratezza sono positivi?

Accepted Answer

I risultati mostrano un confronto tra il modello di base e quello personalizzato. Affinché la personalizzazione sia giustificata, il modello personalizzato deve essere più efficiente del modello di base.

Question 26

Come si determina la percentuale di parole errate in un modello di base per verificare se vi è stato un miglioramento?

Accepted Answer

I risultati dei test offline mostrano l'accuratezza di base del modello personalizzato e il miglioramento rispetto al modello di base.

Question 27

Quanti dati di testo è necessario caricare?

Accepted Answer

Dipende da quanto il vocabolario e le frasi usate nell'applicazione differiscono dai modelli linguistici iniziali. Per tutte le parole nuove è utile specificare il maggior numero possibile di esempi di utilizzo. Per le frasi frequenti usate nell'applicazione, tra cui le frasi nei dati linguistici, è utile fornire molti esempi, perché consente di indicare al sistema di fare attenzione anche a questi termini. È prassi comune includere almeno 100 o, in genere, diverse centinaia di espressioni nel set di dati linguistico. Se inoltre si prevede che alcuni tipi di query siano più comuni di altri, è possibile inserire nel set di dati varie copie delle query più comuni.

Question 28

È possibile caricare semplicemente un elenco di parole?

Accepted Answer

Caricando un elenco di parole, queste vengono aggiunte nel vocabolario, ma il sistema non apprende come vengono usate normalmente. Se si forniscono espressioni complete o parziali, ovvero frasi comunemente usate dagli utenti, il modello linguistico può apprendere le nuove parole e come vengono usate. Il modello linguistico personalizzato è utile non solo per aggiungere nuove parole nel sistema ma anche per modificare la probabilità di parole note per l'applicazione. L'indicazione di espressioni complete favorisce l'apprendimento da parte del sistema.

Condividi tramite

Domande frequenti sul riconoscimento vocale

Generali