Caricare i set di dati di training e test per Riconoscimento vocale personalizzato

Sono necessari dati audio o di testo per testare l'accuratezza del riconoscimento vocale o il training dei modelli personalizzati. Per informazioni sui tipi di dati supportati per il test o il training del modello, vedere Set di dati di training e test.

Suggerimento

È anche possibile usare l'editor di trascrizione online per creare e perfezionare set di dati audio etichettati.

Caricare set di dati

Per caricare set di dati personalizzati in Speech Studio, seguire questa procedura:

  1. Accedere a Speech Studio.

  2. Selezionare Riconoscimento vocale personalizzato> Nome progetto >Set di dati di Voce>Carica i dati.

  3. Selezionare la scheda Dati di training o Dati di test.

  4. Selezionare un tipo di set di dati e quindi selezionare Avanti.

  5. Specificare il percorso del set di dati e quindi selezionare Avanti. È possibile scegliere un file locale o immettere un percorso remoto, ad esempio l'URL del BLOB di Azure. Se si seleziona la posizione remota e non si usa il meccanismo di sicurezza attendibile dei servizi di Azure, la posizione remota deve essere un URL che possa essere recuperato con una semplice richiesta GET anonima. Ad esempio, un URL di firma di accesso condiviso o un URL accessibile pubblicamente. Gli URL che richiedono un'autorizzazione aggiuntiva o che prevedono l'interazione dell'utente non sono supportati.

    Nota

    Se si usa l'URL BLOB di Azure, è possibile garantire la massima sicurezza dei file del set di dati usando un meccanismo di sicurezza dei servizi di Azure attendibile. Si useranno le stesse tecniche di trascrizione batch e URL di account di archiviazione normale per i file del set di dati. Vedere i dettagli qui.

  6. Immettere il nome e la descrizione del set di dati, quindi selezionare Avanti.

  7. Rivedere le impostazioni, quindi selezionare Salva e chiudi.

Dopo aver caricato il set di dati, passare alla pagina Esegui training di modelli personalizzati per eseguire il training di un modello personalizzato.

Con l'interfaccia della riga di comando di Riconoscimento vocale e l'API REST Riconoscimento vocale, a differenza di Speech Studio, non si sceglie se un set di dati è destinato a test o training al momento del caricamento. Specificare come viene usato un set di dati quando si esegue il training di un modello o si esegue un test.

Anche se non si indica se il set di dati è per il test o il training, è necessario specificare il tipo di set di dati. Il tipo di set di dati viene usato per determinare il tipo di set di dati creato. In alcuni casi, un tipo di set di dati viene usato solo per il test o il training, ma non è consigliabile assumerne una dipendenza. I valori kind dell'interfaccia della riga di comando di Voce e dell'API REST corrispondono alle opzioni in Speech Studio, come descritto nella tabella seguente:

Interfaccia della riga di comando e tipo di API Opzioni di Speech Studio
Acustico Dati di training: trascrizione audio e con etichetta umana
Test dei dati: trascrizione (sintesi audio automatica)
Dati di test: trascrizione audio e con etichetta umana
AudioFiles Test dei dati: Audio
Lingua Dati di training: testo normale
LanguageMarkdown Dati di training: testo strutturato in formato markdown
Pronuncia Dati di training: pronuncia
OutputFormatting Dati di training: formato di output

Importante

Per caricare direttamente i file di dati non viene usata l'interfaccia della riga di comando di Voce o l'API REST. Archiviare prima di tutto i file dei set di dati di training o di test in un URL a cui l'interfaccia della riga di comando di Voce o l'API REST possa accedere. Dopo aver caricato i file di dati, è possibile usare l'interfaccia della riga di comando di Voce o l'API REST per creare un set di dati per il test o il training di Riconoscimento vocale personalizzato.

Per creare un set di dati e connetterlo a un progetto esistente, usare il comando spx csr dataset create. Creare i parametri della richiesta in base alle istruzioni seguenti:

  • Impostare il parametro project sull'ID di un progetto esistente. Questa opzione è consigliata anche perché consente di visualizzare e gestire il set di dati in Speech Studio. È possibile eseguire il comando spx csr project list per ottenere i progetti disponibili.

  • Impostare il parametro kind obbligatorio. Il set di valori possibile per un tipo di set di dati di training è: Acoustic, AudioFiles, Language, LanguageMarkdown e Pronunciation.

  • Impostare il parametro contentUrl obbligatorio. Questo parametro indica il percorso del set di dati. Se non si usa un meccanismo di sicurezza dei servizi di Azure attendibili (vedere la nota successiva), il parametro contentUrl deve essere un URL che può essere recuperato con una semplice richiesta GET anonima. Ad esempio, un URL di firma di accesso condiviso o un URL accessibile pubblicamente. Gli URL che richiedono un'autorizzazione aggiuntiva o che prevedono l'interazione dell'utente non sono supportati.

    Nota

    Se si usa l'URL BLOB di Azure, è possibile garantire la massima sicurezza dei file del set di dati usando un meccanismo di sicurezza dei servizi di Azure attendibile. Si useranno le stesse tecniche di trascrizione batch e URL di account di archiviazione normale per i file del set di dati. Vedere i dettagli qui.

  • Impostare il parametro language obbligatorio. Le impostazioni locali del set di dati devono corrispondere alle impostazioni locali del progetto. Le impostazioni locali non possono essere modificate in un secondo momento. Il parametro language dell'interfaccia della riga di comando di Voce corrisponde alla proprietà locale nella richiesta e nella risposta JSON.

  • Impostare il parametro name obbligatorio. Questo parametro indica il nome visualizzato in Speech Studio. Il parametro name dell'interfaccia della riga di comando di Voce corrisponde alla proprietà displayName nella richiesta e nella risposta JSON.

Ecco un esempio di comando dell'interfaccia della riga di comando di Voce che crea un set di dati e lo connette a un progetto esistente:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Dovrebbe essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La proprietà di primo livello self nel corpo della risposta è l’URI del set di dati. Usare questo URI per ottenere informazioni dettagliate sul progetto e i file del set di dati. È anche possibile usare questo URI per aggiornare o eliminare un set di dati.

Per ottenere la guida dell’interfaccia della riga di comando di Voce con i set di dati, eseguire il comando seguente:

spx help csr dataset

Con l'interfaccia della riga di comando di Riconoscimento vocale e l'API REST Riconoscimento vocale, a differenza di Speech Studio, non si sceglie se un set di dati è destinato a test o training al momento del caricamento. Specificare come viene usato un set di dati quando si esegue il training di un modello o si esegue un test.

Anche se non si indica se il set di dati è per il test o il training, è necessario specificare il tipo di set di dati. Il tipo di set di dati viene usato per determinare il tipo di set di dati creato. In alcuni casi, un tipo di set di dati viene usato solo per il test o il training, ma non è consigliabile assumerne una dipendenza. I valori kind dell'interfaccia della riga di comando di Voce e dell'API REST corrispondono alle opzioni in Speech Studio, come descritto nella tabella seguente:

Interfaccia della riga di comando e tipo di API Opzioni di Speech Studio
Acustico Dati di training: trascrizione audio e con etichetta umana
Test dei dati: trascrizione (sintesi audio automatica)
Dati di test: trascrizione audio e con etichetta umana
AudioFiles Test dei dati: Audio
Lingua Dati di training: testo normale
LanguageMarkdown Dati di training: testo strutturato in formato markdown
Pronuncia Dati di training: pronuncia
OutputFormatting Dati di training: formato di output

Importante

Per caricare direttamente i file di dati non viene usata l'interfaccia della riga di comando di Voce o l'API REST. Archiviare prima di tutto i file dei set di dati di training o di test in un URL a cui l'interfaccia della riga di comando di Voce o l'API REST possa accedere. Dopo aver caricato i file di dati, è possibile usare l'interfaccia della riga di comando di Voce o l'API REST per creare un set di dati per il test o il training di Riconoscimento vocale personalizzato.

Per creare un set di dati e connetterlo a un progetto esistente, usare l'operazione di Datasets_Create dell'API REST di riconoscimento vocale. Creare il corpo della richiesta in base alle istruzioni seguenti:

  • Impostare la proprietà project sull'URI di un progetto esistente. Questa opzione è consigliata anche perché consente di visualizzare e gestire il set di dati in Speech Studio. È possibile effettuare una richiesta Projects_List per ottenere i progetti disponibili.

  • Impostare la proprietà kind obbligatoria. Il set di valori possibile per un tipo di set di dati di training è: Acoustic, AudioFiles, Language, LanguageMarkdown e Pronunciation.

  • Impostare la proprietà contentUrl obbligatoria. Questa proprietà indica il percorso del set di dati. Se non si usa un meccanismo di sicurezza dei servizi di Azure attendibili (vedere la nota successiva), il parametro contentUrl deve essere un URL che può essere recuperato con una semplice richiesta GET anonima. Ad esempio, un URL di firma di accesso condiviso o un URL accessibile pubblicamente. Gli URL che richiedono un'autorizzazione aggiuntiva o che prevedono l'interazione dell'utente non sono supportati.

    Nota

    Se si usa l'URL BLOB di Azure, è possibile garantire la massima sicurezza dei file del set di dati usando un meccanismo di sicurezza dei servizi di Azure attendibile. Si useranno le stesse tecniche di trascrizione batch e URL di account di archiviazione normale per i file del set di dati. Vedere i dettagli qui.

  • Impostare la proprietà locale obbligatoria. Le impostazioni locali del set di dati devono corrispondere alle impostazioni locali del progetto. Le impostazioni locali non possono essere modificate in un secondo momento.

  • Impostare la proprietà displayName obbligatoria. Questa proprietà indica il nome visualizzato in Speech Studio.

Eseguire una richiesta HTTP POST usando l'URI, come illustrato nell'esempio seguente. Sostituire YourSubscriptionKey con la chiave della risorsa Voce e YourServiceRegion con l'area della risorsa Voce, quindi impostare le proprietà del corpo della richiesta come descritto in precedenza.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Dovrebbe essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La proprietà di primo livello self nel corpo della risposta è l’URI del set di dati. Usare questo URI per ottenere informazioni dettagliate sul progetto e i file del set di dati. È anche possibile usare questo URI per aggiornare o eliminare set di dati.

Importante

La connessione di un set di dati a un progetto di Riconoscimento vocale personalizzato non è necessaria per eseguire il training e il test di un modello personalizzato usando l'API REST o l'interfaccia della riga di comando di Voce. Tuttavia, se il set di dati non è connesso ad alcun progetto, non è possibile selezionarlo per il training o il test in Speech Studio.

Passaggi successivi