Creare un progetto di Riconoscimento vocale personalizzato

Articolo
10/16/2024

I progetti di Riconoscimento vocale personalizzato contengono modelli, set di dati di training e test ed endpoint di distribuzione. Ogni progetto è specifico rispetto alle impostazioni locali. Ad esempio, è possibile creare un progetto per l’inglese negli Stati Uniti d’America.

Creare un progetto

Per creare un progetto di Riconoscimento vocale personalizzato, seguire questa procedura:

Accedere a Speech Studio.
Selezionare la sottoscrizione e la risorsa Voce da usare.

Importante

Se si esegue il training di un modello personalizzato con dati audio, scegliere un’area della risorsa Voce con hardware dedicato per il training dei dati audio. Per altre informazioni, vedere le note a piè di pagina nella tabella aree.
Selezionare Riconoscimento vocale personalizzato>Crea un nuovo progetto.
Seguire le istruzioni fornite dalla procedura guidata per creare il progetto.

Selezionare il nuovo progetto in base al nome o selezionare Vai al progetto. Queste voci di menu verranno visualizzate nel pannello sinistro: set di dati di Voce, Esegui il training di modelli personalizzati, Modelli di test e Distribuisci modelli.

Per creare un progetto, usare il comando spx csr project create. Creare i parametri della richiesta in base alle istruzioni seguenti:

Impostare il parametro language obbligatorio. Le impostazioni locali del progetto e i set di dati contenuti devono essere uguali. Le impostazioni locali non possono essere modificate in un secondo momento. Il parametro language dell'interfaccia della riga di comando di Voce corrisponde alla proprietà locale nella richiesta e nella risposta JSON.
Impostare il parametro name obbligatorio. Si tratta del nome che verrà visualizzato in Speech Studio. Il parametro name dell’interfaccia della riga di comando di Voce corrisponde alla proprietà displayName nella richiesta e nella risposta JSON.

Ecco un esempio di comando dell'interfaccia della riga di comando di Voce che crea un progetto:

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

Deve essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

La proprietà di primo livello self nel corpo della risposta è l’URI del progetto. Usare questo URI per ottenere dettagli sulle valutazioni, i set di dati, i modelli, gli endpoint e le trascrizioni del progetto. È anche possibile usare questo URI per aggiornare o eliminare un progetto.

Per ottenere la guida dell’interfaccia della riga di comando di Voce con i progetti, eseguire il comando seguente:

spx help csr project

Per creare un progetto, usare l’operazione di Projects_Create dell’API REST di riconoscimento vocale. Costruire il corpo della richiesta in base alle istruzioni seguenti:

Impostare la proprietà locale richiesta. Si tratta delle impostazioni locali dei set di dati contenuti. Le impostazioni locali non possono essere modificate in un secondo momento.
Impostare la proprietà displayName obbligatoria. Si tratta del nome del progetto che viene visualizzato in Speech Studio.

Effettuare una richiesta HTTP POST usando l’URI come illustrato nell’esempio Projects_Create seguente. Sostituire YourSubscriptionKey con la chiave della risorsa Voce, sostituire YourServiceRegion con l’area della risorsa Voce e impostare le proprietà del corpo della richiesta come descritto in precedenza.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

Deve essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Scegliere il modello

Esistono alcuni approcci all'uso di modelli di Riconoscimento vocale personalizzato:

Il modello di base offre un riconoscimento vocale accurato predefinito per una gamma di scenari. I modelli di base vengono aggiornati periodicamente per migliorare l'accuratezza e la qualità. Se si usano modelli di base, è consigliabile usare i modelli predefiniti più recenti. Se una funzionalità di personalizzazione necessaria è disponibile solo con un modello meno recente, è possibile scegliere un modello di base meno recente.
Un modello personalizzato augmenta il modello di base per includere un vocabolario specifico di dominio condiviso in tutte le aree del dominio personalizzato.
È possibile usare più modelli personalizzati quando il dominio personalizzato dispone di più aree, ognuna con un vocabolario specifico.

Un modo consigliato per verificare se il modello di base è sufficiente per l’uso consiste nell’analizzare la trascrizione prodotta dal modello di base e confrontarla con una trascrizione generata da un essere umano per lo stesso audio. È possibile confrontare le trascrizioni e ottenere un punteggio di percentuale di errori delle parole (WER). Se il punteggio WER è elevato, è consigliabile eseguire il training di un modello personalizzato per riconoscere parole identificate in modo non corretto.

Se il vocabolario varia in base alle aree di dominio, è consigliabile usare più modelli. Ad esempio, i cronisti olimpici fanno resoconti su vari eventi e ognuno viene presentato usando il proprio linguaggio settoriale. Poiché il vocabolario di ogni evento olimpico differisce in modo significativo dagli altri, la creazione di un modello personalizzato specifico per un evento aumenta l'accuratezza limitando i dati dell'espressione rispetto a quel particolare evento. Di conseguenza, il modello non deve analizzare i dati non correlati per stabilire una corrispondenza. Indipendentemente dal fatto che il training richieda comunque una varietà soddisfacente di dati di training. Includere audio di vari cronisti che hanno diversi accenti, identità di genere, età, e così via.

Stabilità e ciclo di vita del modello

Un modello di base o un modello personalizzato distribuito in un endpoint tramite Riconoscimento vocale personalizzato rimane invariato fino a quando non si decide di aggiornarlo. L'accuratezza e la qualità del riconoscimento vocale rimarranno coerenti, anche quando viene rilasciato un nuovo modello di base. In questo modo è possibile bloccare il comportamento di un modello specifico fino a quando non si decide di usare un modello più recente.

Sia che si esegua il training del proprio modello o si usi uno snapshot di un modello di base, è possibile usare il modello per un periodo di tempo limitato. Per altre informazioni, vedere Modello e ciclo di vita dell'endpoint.

Condividi tramite

Creare un progetto di Riconoscimento vocale personalizzato