Ladda upp tränings- och testdatauppsättningar för anpassat tal
Du behöver ljud- eller textdata för att testa korrekt taligenkänning eller träna dina anpassade modeller. Information om de datatyper som stöds för testning eller träning av din modell finns i Tränings- och testningsdatauppsättningar.
Dricks
Du kan också använda transkriptionsredigeraren online för att skapa och förfina etiketterade ljuddatauppsättningar.
Ladda upp datauppsättningar
Följ dessa steg för att ladda upp dina egna datauppsättningar i Speech Studio:
Logga in på Speech Studio.
Välj Anpassat tal> Projektnamnet >Speech-datauppsättningar>Ladda upp data.
Välj fliken Träningsdata eller Testa data .
Välj en datamängdstyp och välj sedan Nästa.
Ange datamängdens plats och välj sedan Nästa. Du kan välja en lokal fil eller ange en fjärrplats, till exempel Azure Blob URL. Om du väljer fjärrplats och inte använder betrodda Säkerhetsmekanismer för Azure-tjänster ska fjärrplatsen vara en URL som kan hämtas med en enkel anonym GET-begäran. Till exempel en SAS-URL eller en offentligt tillgänglig URL. URL:er som kräver extra auktorisering eller förväntar sig användarinteraktion stöds inte.
Kommentar
Om du använder Azure Blob-URL:en kan du garantera maximal säkerhet för dina datamängdsfiler med hjälp av en betrodd Säkerhetsmekanism för Azure-tjänster. Du använder samma tekniker som för Batch-transkription och vanliga URL:er för lagringskonton för dina datauppsättningsfiler. Mer information finns här
Ange datauppsättningens namn och beskrivning och välj sedan Nästa.
Granska inställningarna och välj sedan Spara och stäng.
När datamängden har laddats upp går du till sidan Träna anpassade modeller för att träna en anpassad modell.
Med SPEECH CLI och SPEECH to text REST API, till skillnad från Speech Studio, väljer du inte om en datauppsättning ska testas eller tränas vid tidpunkten för uppladdningen. Du anger hur en datauppsättning används när du tränar en modell eller kör ett test.
Även om du inte anger om datauppsättningen ska testas eller tränas måste du ange datamängdens typ. Datamängdstypen används för att avgöra vilken typ av datauppsättning som skapas. I vissa fall används en datamängdstyp endast för testning eller träning, men du bör inte vara beroende av det. Värdena för Speech CLI och REST API kind
motsvarar alternativen i Speech Studio enligt beskrivningen i följande tabell:
CLI- och API-typ | Speech Studio-alternativ |
---|---|
Akustisk | Träningsdata: Ljud + mänskligt märkt avskrift Testdata: Avskrift (automatisk ljudsyntes) Testdata: Ljud + mänskligt märkt avskrift |
AudioFiles | Testa data: Ljud |
Språk | Träningsdata: Oformaterad text |
LanguageMarkdown | Träningsdata: Strukturerad text i markdown-format |
Uttal | Träningsdata: Uttal |
OutputFormatting | Träningsdata: Utdataformat |
Viktigt!
Du använder inte Speech CLI eller REST API för att ladda upp datafiler direkt. Först lagrar du utbildnings- eller testningsdatauppsättningsfilerna på en URL som Speech CLI eller REST API kan komma åt. När du har laddat upp datafilerna kan du använda Speech CLI eller REST API för att skapa en datauppsättning för anpassad taltestning eller träning.
Om du vill skapa en datauppsättning och ansluta den till ett befintligt projekt använder du spx csr dataset create
kommandot . Skapa begärandeparametrarna enligt följande instruktioner:
Ange parametern
project
till ID för ett befintligt projekt. Den här parametern rekommenderas så att du även kan visa och hantera datamängden i Speech Studio. Du kan köraspx csr project list
kommandot för att hämta tillgängliga projekt.Ange den obligatoriska
kind
parametern. Möjliga värden för en typ av träningsdatauppsättning är: Acoustic, AudioFiles, Language, LanguageMarkdown och Pronunciation.Ange den obligatoriska
contentUrl
parametern. Den här parametern är platsen för datauppsättningen. Om du inte använder en betrodd Säkerhetsmekanism för Azure-tjänster (se nästa anmärkning) bör parameterncontentUrl
vara en URL som kan hämtas med en enkel anonym GET-begäran. Till exempel en SAS-URL eller en offentligt tillgänglig URL. URL:er som kräver extra auktorisering eller förväntar sig användarinteraktion stöds inte.Kommentar
Om du använder Azure Blob-URL:en kan du garantera maximal säkerhet för dina datamängdsfiler med hjälp av en betrodd Säkerhetsmekanism för Azure-tjänster. Du använder samma tekniker som för Batch-transkription och vanliga URL:er för lagringskonton för dina datauppsättningsfiler. Mer information finns här
Ange den obligatoriska
language
parametern. Datamängdens nationella inställningar måste matcha projektets nationella inställningar. Språkvarianten kan inte ändras senare. Parametern Speech CLIlanguage
motsvararlocale
egenskapen i JSON-begäran och -svaret.Ange den obligatoriska
name
parametern. Den här parametern är namnet som visas i Speech Studio. Parametern Speech CLIname
motsvarardisplayName
egenskapen i JSON-begäran och -svaret.
Här är ett exempel på ett Speech CLI-kommando som skapar en datauppsättning och ansluter den till ett befintligt projekt:
spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"
Du bör få en svarstext i följande format:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Den översta egenskapen self
i svarstexten är datauppsättningens URI. Använd den här URI:n för att få information om datauppsättningens projekt och filer. Du använder också den här URI:n för att uppdatera eller ta bort en datauppsättning.
För Hjälp med Speech CLI med datauppsättningar kör du följande kommando:
spx help csr dataset
Med SPEECH CLI och SPEECH to text REST API, till skillnad från Speech Studio, väljer du inte om en datauppsättning ska testas eller tränas vid tidpunkten för uppladdningen. Du anger hur en datauppsättning används när du tränar en modell eller kör ett test.
Även om du inte anger om datauppsättningen ska testas eller tränas måste du ange datamängdens typ. Datamängdstypen används för att avgöra vilken typ av datauppsättning som skapas. I vissa fall används en datamängdstyp endast för testning eller träning, men du bör inte vara beroende av det. Värdena för Speech CLI och REST API kind
motsvarar alternativen i Speech Studio enligt beskrivningen i följande tabell:
CLI- och API-typ | Speech Studio-alternativ |
---|---|
Akustisk | Träningsdata: Ljud + mänskligt märkt avskrift Testdata: Avskrift (automatisk ljudsyntes) Testdata: Ljud + mänskligt märkt avskrift |
AudioFiles | Testa data: Ljud |
Språk | Träningsdata: Oformaterad text |
LanguageMarkdown | Träningsdata: Strukturerad text i markdown-format |
Uttal | Träningsdata: Uttal |
OutputFormatting | Träningsdata: Utdataformat |
Viktigt!
Du använder inte Speech CLI eller REST API för att ladda upp datafiler direkt. Först lagrar du utbildnings- eller testningsdatauppsättningsfilerna på en URL som Speech CLI eller REST API kan komma åt. När du har laddat upp datafilerna kan du använda Speech CLI eller REST API för att skapa en datauppsättning för anpassad taltestning eller träning.
Om du vill skapa en datauppsättning och ansluta den till ett befintligt projekt använder du den Datasets_Create åtgärden för REST-API:et Tal till text. Skapa begärandetexten enligt följande instruktioner:
project
Ange egenskapen till URI för ett befintligt projekt. Den här egenskapen rekommenderas så att du även kan visa och hantera datauppsättningen i Speech Studio. Du kan göra en Projects_List begäran om att få tillgängliga projekt.Ange den obligatoriska
kind
egenskapen. Möjliga värden för en typ av träningsdatauppsättning är: Acoustic, AudioFiles, Language, LanguageMarkdown och Pronunciation.Ange den obligatoriska
contentUrl
egenskapen. Den här egenskapen är platsen för datauppsättningen. Om du inte använder en betrodd Säkerhetsmekanism för Azure-tjänster (se nästa anmärkning) bör parameterncontentUrl
vara en URL som kan hämtas med en enkel anonym GET-begäran. Till exempel en SAS-URL eller en offentligt tillgänglig URL. URL:er som kräver extra auktorisering eller förväntar sig användarinteraktion stöds inte.Kommentar
Om du använder Azure Blob-URL:en kan du garantera maximal säkerhet för dina datamängdsfiler med hjälp av en betrodd Säkerhetsmekanism för Azure-tjänster. Du använder samma tekniker som för Batch-transkription och vanliga URL:er för lagringskonton för dina datauppsättningsfiler. Mer information finns här
Ange den obligatoriska
locale
egenskapen. Datamängdens nationella inställningar måste matcha projektets nationella inställningar. Språkvarianten kan inte ändras senare.Ange den obligatoriska
displayName
egenskapen. Den här egenskapen är det namn som visas i Speech Studio.
Gör en HTTP POST-begäran med hjälp av URI:n enligt följande exempel. Ersätt YourSubscriptionKey
med din Speech-resursnyckel, ersätt YourServiceRegion
med resursregionen Speech och ange egenskaperna för begärandetexten enligt beskrivningen ovan.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"kind": "Acoustic",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"contentUrl": "https://contoso.com/mydatasetlocation",
"locale": "en-US",
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"
Du bör få en svarstext i följande format:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Den översta egenskapen self
i svarstexten är datauppsättningens URI. Använd den här URI:n för att få information om datauppsättningens projekt och filer. Du använder också den här URI:n för att uppdatera eller ta bort datauppsättningen.
Viktigt!
Det krävs inte att du ansluter en datauppsättning till ett anpassat talprojekt för att träna och testa en anpassad modell med hjälp av REST-API:et eller Speech CLI. Men om datauppsättningen inte är ansluten till något projekt kan du inte välja den för träning eller testning i Speech Studio.