Ladda upp tränings- och testdatauppsättningar för anpassat tal

Du behöver ljud- eller textdata för att testa korrekt taligenkänning eller träna dina anpassade modeller. Information om de datatyper som stöds för testning eller träning av din modell finns i Tränings- och testningsdatauppsättningar.

Dricks

Du kan också använda transkriptionsredigeraren online för att skapa och förfina etiketterade ljuddatauppsättningar.

Ladda upp datauppsättningar

Följ dessa steg för att ladda upp dina egna datauppsättningar i Speech Studio:

  1. Logga in på Speech Studio.

  2. Välj Anpassat tal> Projektnamnet >Speech-datauppsättningar>Ladda upp data.

  3. Välj fliken Träningsdata eller Testa data .

  4. Välj en datamängdstyp och välj sedan Nästa.

  5. Ange datamängdens plats och välj sedan Nästa. Du kan välja en lokal fil eller ange en fjärrplats, till exempel Azure Blob URL. Om du väljer fjärrplats och inte använder betrodda Säkerhetsmekanismer för Azure-tjänster ska fjärrplatsen vara en URL som kan hämtas med en enkel anonym GET-begäran. Till exempel en SAS-URL eller en offentligt tillgänglig URL. URL:er som kräver extra auktorisering eller förväntar sig användarinteraktion stöds inte.

    Kommentar

    Om du använder Azure Blob-URL:en kan du garantera maximal säkerhet för dina datamängdsfiler med hjälp av en betrodd Säkerhetsmekanism för Azure-tjänster. Du använder samma tekniker som för Batch-transkription och vanliga URL:er för lagringskonton för dina datauppsättningsfiler. Mer information finns här

  6. Ange datauppsättningens namn och beskrivning och välj sedan Nästa.

  7. Granska inställningarna och välj sedan Spara och stäng.

När datamängden har laddats upp går du till sidan Träna anpassade modeller för att träna en anpassad modell.

Med SPEECH CLI och SPEECH to text REST API, till skillnad från Speech Studio, väljer du inte om en datauppsättning ska testas eller tränas vid tidpunkten för uppladdningen. Du anger hur en datauppsättning används när du tränar en modell eller kör ett test.

Även om du inte anger om datauppsättningen ska testas eller tränas måste du ange datamängdens typ. Datamängdstypen används för att avgöra vilken typ av datauppsättning som skapas. I vissa fall används en datamängdstyp endast för testning eller träning, men du bör inte vara beroende av det. Värdena för Speech CLI och REST API kind motsvarar alternativen i Speech Studio enligt beskrivningen i följande tabell:

CLI- och API-typ Speech Studio-alternativ
Akustisk Träningsdata: Ljud + mänskligt märkt avskrift
Testdata: Avskrift (automatisk ljudsyntes)
Testdata: Ljud + mänskligt märkt avskrift
AudioFiles Testa data: Ljud
Språk Träningsdata: Oformaterad text
LanguageMarkdown Träningsdata: Strukturerad text i markdown-format
Uttal Träningsdata: Uttal
OutputFormatting Träningsdata: Utdataformat

Viktigt!

Du använder inte Speech CLI eller REST API för att ladda upp datafiler direkt. Först lagrar du utbildnings- eller testningsdatauppsättningsfilerna på en URL som Speech CLI eller REST API kan komma åt. När du har laddat upp datafilerna kan du använda Speech CLI eller REST API för att skapa en datauppsättning för anpassad taltestning eller träning.

Om du vill skapa en datauppsättning och ansluta den till ett befintligt projekt använder du spx csr dataset create kommandot . Skapa begärandeparametrarna enligt följande instruktioner:

  • Ange parametern project till ID för ett befintligt projekt. Den här parametern rekommenderas så att du även kan visa och hantera datamängden i Speech Studio. Du kan köra spx csr project list kommandot för att hämta tillgängliga projekt.

  • Ange den obligatoriska kind parametern. Möjliga värden för en typ av träningsdatauppsättning är: Acoustic, AudioFiles, Language, LanguageMarkdown och Pronunciation.

  • Ange den obligatoriska contentUrl parametern. Den här parametern är platsen för datauppsättningen. Om du inte använder en betrodd Säkerhetsmekanism för Azure-tjänster (se nästa anmärkning) bör parametern contentUrl vara en URL som kan hämtas med en enkel anonym GET-begäran. Till exempel en SAS-URL eller en offentligt tillgänglig URL. URL:er som kräver extra auktorisering eller förväntar sig användarinteraktion stöds inte.

    Kommentar

    Om du använder Azure Blob-URL:en kan du garantera maximal säkerhet för dina datamängdsfiler med hjälp av en betrodd Säkerhetsmekanism för Azure-tjänster. Du använder samma tekniker som för Batch-transkription och vanliga URL:er för lagringskonton för dina datauppsättningsfiler. Mer information finns här

  • Ange den obligatoriska language parametern. Datamängdens nationella inställningar måste matcha projektets nationella inställningar. Språkvarianten kan inte ändras senare. Parametern Speech CLI language motsvarar locale egenskapen i JSON-begäran och -svaret.

  • Ange den obligatoriska name parametern. Den här parametern är namnet som visas i Speech Studio. Parametern Speech CLI name motsvarar displayName egenskapen i JSON-begäran och -svaret.

Här är ett exempel på ett Speech CLI-kommando som skapar en datauppsättning och ansluter den till ett befintligt projekt:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Den översta egenskapen self i svarstexten är datauppsättningens URI. Använd den här URI:n för att få information om datauppsättningens projekt och filer. Du använder också den här URI:n för att uppdatera eller ta bort en datauppsättning.

För Hjälp med Speech CLI med datauppsättningar kör du följande kommando:

spx help csr dataset

Med SPEECH CLI och SPEECH to text REST API, till skillnad från Speech Studio, väljer du inte om en datauppsättning ska testas eller tränas vid tidpunkten för uppladdningen. Du anger hur en datauppsättning används när du tränar en modell eller kör ett test.

Även om du inte anger om datauppsättningen ska testas eller tränas måste du ange datamängdens typ. Datamängdstypen används för att avgöra vilken typ av datauppsättning som skapas. I vissa fall används en datamängdstyp endast för testning eller träning, men du bör inte vara beroende av det. Värdena för Speech CLI och REST API kind motsvarar alternativen i Speech Studio enligt beskrivningen i följande tabell:

CLI- och API-typ Speech Studio-alternativ
Akustisk Träningsdata: Ljud + mänskligt märkt avskrift
Testdata: Avskrift (automatisk ljudsyntes)
Testdata: Ljud + mänskligt märkt avskrift
AudioFiles Testa data: Ljud
Språk Träningsdata: Oformaterad text
LanguageMarkdown Träningsdata: Strukturerad text i markdown-format
Uttal Träningsdata: Uttal
OutputFormatting Träningsdata: Utdataformat

Viktigt!

Du använder inte Speech CLI eller REST API för att ladda upp datafiler direkt. Först lagrar du utbildnings- eller testningsdatauppsättningsfilerna på en URL som Speech CLI eller REST API kan komma åt. När du har laddat upp datafilerna kan du använda Speech CLI eller REST API för att skapa en datauppsättning för anpassad taltestning eller träning.

Om du vill skapa en datauppsättning och ansluta den till ett befintligt projekt använder du den Datasets_Create åtgärden för REST-API:et Tal till text. Skapa begärandetexten enligt följande instruktioner:

  • project Ange egenskapen till URI för ett befintligt projekt. Den här egenskapen rekommenderas så att du även kan visa och hantera datauppsättningen i Speech Studio. Du kan göra en Projects_List begäran om att få tillgängliga projekt.

  • Ange den obligatoriska kind egenskapen. Möjliga värden för en typ av träningsdatauppsättning är: Acoustic, AudioFiles, Language, LanguageMarkdown och Pronunciation.

  • Ange den obligatoriska contentUrl egenskapen. Den här egenskapen är platsen för datauppsättningen. Om du inte använder en betrodd Säkerhetsmekanism för Azure-tjänster (se nästa anmärkning) bör parametern contentUrl vara en URL som kan hämtas med en enkel anonym GET-begäran. Till exempel en SAS-URL eller en offentligt tillgänglig URL. URL:er som kräver extra auktorisering eller förväntar sig användarinteraktion stöds inte.

    Kommentar

    Om du använder Azure Blob-URL:en kan du garantera maximal säkerhet för dina datamängdsfiler med hjälp av en betrodd Säkerhetsmekanism för Azure-tjänster. Du använder samma tekniker som för Batch-transkription och vanliga URL:er för lagringskonton för dina datauppsättningsfiler. Mer information finns här

  • Ange den obligatoriska locale egenskapen. Datamängdens nationella inställningar måste matcha projektets nationella inställningar. Språkvarianten kan inte ändras senare.

  • Ange den obligatoriska displayName egenskapen. Den här egenskapen är det namn som visas i Speech Studio.

Gör en HTTP POST-begäran med hjälp av URI:n enligt följande exempel. Ersätt YourSubscriptionKey med din Speech-resursnyckel, ersätt YourServiceRegion med resursregionen Speech och ange egenskaperna för begärandetexten enligt beskrivningen ovan.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Den översta egenskapen self i svarstexten är datauppsättningens URI. Använd den här URI:n för att information om datauppsättningens projekt och filer. Du använder också den här URI:n för att uppdatera eller ta bort datauppsättningen.

Viktigt!

Det krävs inte att du ansluter en datauppsättning till ett anpassat talprojekt för att träna och testa en anpassad modell med hjälp av REST-API:et eller Speech CLI. Men om datauppsättningen inte är ansluten till något projekt kan du inte välja den för träning eller testning i Speech Studio.

Nästa steg