Speech Service-kvoter och -gränser
Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoterna och gränserna för Speech-tjänsten i Azure AI-tjänster. Informationen gäller för alla prisnivåer för tjänsten. Den innehåller också några metodtips för att undvika begränsning av begäranden.
För den kostnadsfria prisnivån (F0) kan du även se de månatliga traktamentena på prissidan.
Referens för kvoter och gränser
I följande avsnitt får du en snabbguide till de kvoter och gränser som gäller för Speech-tjänsten.
Information om justerbara kvoter för Standard(S0) Speech-resurser finns i fler förklaringar, metodtips och justeringsinstruktioner. Kvoterna och gränserna för kostnadsfria (F0) Speech-resurser kan inte justeras.
Viktigt!
Om du byter en Speech-resurs från prisnivån Kostnadsfri (F0) till Standard (S0) kan det ta upp till flera timmar att ändra motsvarande kvoter.
Tal till textkvoter och -gränser per resurs
I det här avsnittet beskrivs tal till textkvoter och gränser per Speech-resurs. Om inget annat anges kan gränserna inte justeras.
Tal till text och talöversättning i realtid
Du kan använda tal till text i realtid med Speech SDK eller REST API för tal till text för kort ljud.
Viktigt!
Dessa gränser gäller för samtidiga realtidstal för textbegäranden och talöversättningsbegäranden tillsammans. Om du till exempel har 60 samtidiga tal till textbegäranden och 40 samtidiga talöversättningsbegäranden når du gränsen på 100 samtidiga begäranden.
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Gräns för samtidig begäran – basmodellslutpunkt | 1 Den här gränsen kan inte justeras. |
100 (standardvärde) Hastigheten kan justeras för Standard-resurser (S0). Se fler förklaringar, metodtips och justeringsinstruktioner. |
Gräns för samtidig begäran – anpassad slutpunkt | 1 Den här gränsen kan inte justeras. |
100 (standardvärde) Hastigheten kan justeras för Standard-resurser (S0). Se fler förklaringar, metodtips och justeringsinstruktioner. |
Maximal ljudlängd för diarisering i realtid. | Ej tillämpligt | 240 minuter per fil |
Snabb transkription
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Maximal filstorlek för ljudindata | Ej tillämpligt | 200 MB |
Maximal ljudlängd | Ej tillämpligt | 120 minuter per fil |
Maximalt antal begäranden per minut | Ej tillämpligt | 300 |
Batch-transkription
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Rest API-gräns för tal till text | Inte tillgängligt för F0 | 100 begäranden per 10 sekunder (600 begäranden per minut) |
Maximal filstorlek för ljudinmatning | Saknas | 1 GB |
Maximalt antal blobar per container | Ej tillämpligt | 10000 |
Maximalt antal filer per transkriptionsbegäran (när du använder flera innehålls-URL:er som indata). | Ej tillämpligt | 1000 |
Maximal ljudlängd för transkriptioner med diarisering aktiverat. | Ej tillämpligt | 240 minuter per fil |
Modellanpassning
Gränserna i den här tabellen gäller per Speech-resurs när du skapar en anpassad talmodell.
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
REST API-gräns | 100 begäranden per 10 sekunder (600 begäranden per minut) | 100 begäranden per 10 sekunder (600 begäranden per minut) |
Maximalt antal taldatauppsättningar | 2 | 500 |
Maximal filstorlek för akustisk datauppsättning för dataimport | 2 GB | 2 GB |
Maximal filstorlek för språkdatauppsättning för dataimport | 200 MB | 1.5 GB |
Maximal uttalsdatauppsättningsfilstorlek för dataimport | 1 kB | 1 MB |
Maximal textstorlek när du använder parametern text i Models_Create API-begäran |
200 KB | 500 kB |
Text till tal-kvoter och -gränser per resurs
I det här avsnittet beskrivs text till talkvoter och -gränser per Speech-resurs.
Text till tal i realtid
Du kan använda text i realtid till tal med Speech SDK eller REST API för text till tal. Om inget annat anges kan gränserna inte justeras.
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Maximalt antal transaktioner per tidsperiod för fördefinierade neurala röster och anpassade neurala röster. | 20 transaktioner per 60 sekunder Den här gränsen kan inte justeras. |
200 transaktioner per sekund (TPS) (standardvärde) Hastigheten kan justeras upp till 1 000 TPS för standardresurser (S0). Se fler förklaringar, metodtips och justeringsinstruktioner. |
Maximal ljudlängd per begäran | 10 min | 10 min |
Maximalt totalt antal distinkta <voice> taggar och <audio> taggar i SSML |
50 | 50 |
Maximal SSML-meddelandestorlek per tur för websocket | 64 KB | 64 KB |
Batchsyntes
Dessa gränser kan inte justeras. Mer information om svarstid för batchsyntes finns i svarstid och metodtips för batchsyntes.
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
REST API-gräns | Inte tillgängligt för F0 | 100 begäranden per 10 sekunder |
Maximal JSON-nyttolaststorlek för att skapa ett syntesjobb | Ej tillämpligt | 2 megabyte |
Samtidiga aktiva syntesjobb | Ej tillämpligt | Ingen begränsning |
Maximalt antal textindata per syntesjobb | Ej tillämpligt | 10000 |
Maximal tid att leva för ett syntesjobb eftersom det är i det slutliga tillståndet | Ej tillämpligt | Upp till 31 dagar (anges med egenskaper) |
Anpassad neural röst – professionell
Gränserna i den här tabellen gäller per Speech-resurs när du skapar en professionell anpassad neural röstmodell.
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Maximalt antal transaktioner per sekund (TPS) | Inte tillgängligt för F0 | 200 transaktioner per sekund (TPS) (standardvärde) |
Maximalt antal datamängder | Ej tillämpligt | 500 |
Maximalt antal samtidiga uppladdningar av datamängder | Ej tillämpligt | 5 |
Maximal datafilstorlek för dataimport per datauppsättning | Ej tillämpligt | 2 GB |
Uppladdning av långt ljud eller ljud utan skript | Ej tillämpligt | Ja |
Maximalt antal samtidiga modellträningar | Ej tillämpligt | 4 |
Maximalt antal anpassade slutpunkter | Ej tillämpligt | 50 |
Anpassad neural röst – personlig röst
Gränserna i den här tabellen gäller per Speech-resurs när du skapar en personlig röst.
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
REST API-gräns (exklusive talsyntes) | Inte tillgängligt för F0 | 50 begäranden per 10 sekunder |
Maximalt antal transaktioner per sekund (TPS) för talsyntes | Inte tillgängligt för F0 | 200 transaktioner per sekund (TPS) (standardvärde) |
Batchtext till tal-avatar
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
REST API-gräns | Inte tillgängligt för F0 | 2 begäranden per 1 minut |
Text till tal-avatar i realtid
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Nya anslutningar per minut | Inte tillgängligt för F0 | 2 nya anslutningar per minut |
Maximal anslutningstid med tal | Inte tillgängligt för F0 | 10 minuter1 |
Maximal anslutningstid med inaktivt tillstånd | Inte tillgängligt för F0 | 5 minuter |
1 För att säkerställa kontinuerlig drift av realtids-avataren i mer än 10 minuter kan du aktivera automatisk återanslutning. Information om hur du konfigurerar automatisk återanslutning finns i den här exempelkoden (sök "automatisk återanslutning").
Verktyg för att skapa ljudinnehåll
Kvot | Kostnadsfritt (F0) | Standard (S0) |
---|---|---|
Filstorlek (oformaterad text i SSML)1 | 3 000 tecken per fil | 20 000 tecken per fil |
Filstorlek (lexikonfil)2 | 30 KB per fil | 100 KB per fil |
Fakturerbara tecken i SSML | 15 000 tecken per fil | 100 000 tecken per fil |
Exportera till ljudbibliotek | 1 samtidig aktivitet | Ej tillämpligt |
1 Gränsen gäller endast oformaterad text i SSML och innehåller inte taggar.
2 Tecknen i lexikonfilen debiteras inte. Endast lexikonelementen i SSML räknas som fakturerbara tecken. Mer information finns i fakturerbara tecken.
Kvoter och gränser för talarigenkänning per resurs
Talarigenkänning är begränsad till 20 transaktioner per sekund (TPS).
Detaljerad beskrivning, kvotjustering och metodtips
Vissa av kvoterna för Speech-tjänsten kan justeras. Det här avsnittet innehåller fler förklaringar, metodtips och justeringsinstruktioner.
Följande kvoter kan justeras för Standard-resurser (S0). Gränserna för kostnadsfria begäranden (F0) kan inte justeras.
- Gräns för samtidiga begäranden för tal till text för basmodellslutpunkten och den anpassade slutpunkten
- Text till tal maximalt antal transaktioner per tidsperiod för fördefinierade neurala röster och anpassade neurala röster
- Gräns för samtidiga begäranden för talöversättning
Innan du begär en kvotökning (i förekommande fall) kontrollerar du din aktuella TPS (transaktioner per sekund) och ser till att det är nödvändigt att öka kvoten. Speech Service använder teknik för automatisk skalning för att föra de nödvändiga beräkningsresurserna i läget på begäran. Samtidigt försöker Speech-tjänsten hålla dina kostnader låga genom att inte upprätthålla en alltför stor mängd maskinvarukapacitet.
Låt oss ta en titt på ett exempel. Anta att ditt program tar emot svarskod 429, vilket indikerar att det finns för många begäranden. Ditt program får det här svaret även om din arbetsbelastning ligger inom de gränser som definieras av referensen Kvoter och gränser. Den mest sannolika förklaringen är att Speech-tjänsten skalas upp till din efterfrågan och inte når den nödvändiga skalan ännu. Därför har tjänsten inte omedelbart tillräckligt med resurser för att hantera begäran. I sådana fall hjälper det inte att öka kvoten. I de flesta fall kommer Speech-tjänsten att skalas upp snart och problemet som orsakar svarskoden 429 kommer att lösas.
Allmänna metodtips för att minska begränsningen vid automatisk skalning
För att minimera problem som rör begränsning är det en bra idé att använda följande tekniker:
- Implementera logik för omprövning i ditt program.
- Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis. Anta till exempel att ditt program använder text till tal och att din aktuella arbetsbelastning är 5 TPS. Nästa sekund ökar du belastningen till 20 TPS (alltså fyra gånger mer). Speech Service börjar omedelbart skala upp för att uppfylla den nya belastningen, men kan inte skala efter behov inom en sekund. Vissa begäranden får svarskod 429 (för många begäranden).
- Testa olika mönster för att öka belastningen. Mer information finns i exemplet på arbetsbelastningsmönster.
- Skapa fler Speech-tjänstresurser i olika regioner och distribuera arbetsbelastningen mellan dem. (Om du skapar flera Speech-tjänstresurser i samma region påverkas inte prestandan eftersom alla resurser hanteras av samma serverdelskluster).
I nästa avsnitt beskrivs specifika fall av justering av kvoter.
Tal till text: öka gränsen för samtidiga förfrågningar i realtid till text
Som standard är antalet samtidiga förfrågningar om tal till text och talöversättning i realtid begränsade till 100 per resurs i basmodellen och 100 per anpassad slutpunkt i den anpassade modellen. För standardprisnivån kan du öka det här beloppet. Innan du skickar begäran ska du se till att du är bekant med det material som beskrivs tidigare i den här artikeln, till exempel metodtipsen för att minska begränsningen.
Kommentar
Begränsningar för samtidiga begäranden för bas- och anpassade modeller måste justeras separat. Du kan ha en Speech-tjänstresurs som är associerad med många anpassade slutpunkter som är värdar för många distributioner av anpassade modeller. Vid behov måste gränsjusteringarna per anpassad slutpunkt begäras separat.
Att öka gränsen för samtidiga begäranden påverkar inte dina kostnader direkt. Speech-tjänsten använder en betalningsmodell som kräver att du endast betalar för det du använder. Gränsen definierar hur högt tjänsten kan skalas innan den börjar begränsa dina begäranden.
Du kan inte se det befintliga värdet för parametern för samtidig gräns för begäranden i Azure Portal, kommandoradsverktygen eller API-begäranden. Om du vill verifiera det befintliga värdet skapar du en Azure Support begäran.
Kommentar
Talcontainrar kräver inte ökningar av gränsen för samtidiga begäranden, eftersom containrar endast begränsas av processorerna för den maskinvara som de finns på. Talcontainrar har dock sina egna kapacitetsbegränsningar som bör beaktas. Mer information finns i Vanliga frågor och svar om Talcontainrar.
Ha den information som krävs klar
- För basmodellen:
- Talresurs-ID
- Region
- För den anpassade modellen:
- Region
- Anpassat slutpunkts-ID
Så här hämtar du information för basmodellen:
- Gå till Azure-portalen.
- Välj den Speech Service-resurs som du vill öka gränsen för samtidighetsbegäran för.
- I gruppen Resurshantering väljer du Egenskaper.
- Kopiera och spara värdena för följande fält:
- Resurs-ID
- Plats (din slutpunktsregion)
Så här hämtar du information om den anpassade modellen:
- Gå till Speech Studio-portalen .
- Logga in om det behövs och gå till Anpassat tal.
- Välj projektet och gå till Distribution.
- Välj den slutpunkt som krävs.
- Kopiera och spara värdena för följande fält:
- Tjänstregion (din slutpunktsregion)
- Slutpunkts-ID
Skapa och skicka en supportbegäran
Initiera ökningen av gränsen för samtidiga begäranden för din resurs, eller kontrollera den aktuella gränsen vid behov genom att skicka en supportbegäran. Så här gör du:
- Se till att du har den information som krävs i föregående avsnitt.
- Gå till Azure-portalen.
- Välj den Taltjänstresurs som du vill öka (eller kontrollera) gränsen för samtidighetsbegäran för.
- I gruppen Support + felsökning väljer du Ny supportbegäran. Ett nytt fönster visas med automatiskt ifylld information om din Azure-prenumeration och Azure-resurs.
- I Sammanfattning beskriver du vad du vill ha (till exempel "Öka gränsen för samtidighetsbegäran för tal till text").
- I Problemtyp väljer du Kvot- eller prenumerationsproblem.
- I Problemundertyp väljer du antingen:
- Kvot- eller samtidiga begäranden ökar för en ökningsbegäran.
- Validering av kvot eller användning för att kontrollera den befintliga gränsen.
- Välj Nästa: Lösningar. Fortsätt med att skapa begäran.
- På fliken Information går du till fältet Beskrivning och anger följande:
- Observera att begäran handlar om tal till text-kvoten.
- Välj antingen basmodellen eller den anpassade modellen.
- Den Azure-resursinformation som du samlade in tidigare.
- All annan nödvändig information.
- På fliken Granska + skapa väljer du Skapa.
- Anteckna numret för supportbegäran i Azure Portal-meddelanden. Du kontaktas snart om din begäran.
Exempel på metodtips för arbetsbelastningsmönster
Här är ett allmänt exempel på ett bra tillvägagångssätt. Det är endast avsett som en mall som du kan justera efter behov för din egen användning.
Anta att en Speech-tjänstresurs har gränsen för samtidig begäran inställd på 300. Starta arbetsbelastningen från 20 samtidiga anslutningar och öka belastningen med 20 samtidiga anslutningar var 90–120:e sekund. Kontrollera tjänstsvaren och implementera logiken som faller tillbaka (minskar belastningen) om du får för många begäranden (svarskod 429). Försök sedan att öka belastningen igen på en minut, och om det fortfarande inte fungerar kan du försöka igen om två minuter. Använd ett mönster på 1-2-4-4 minuter för intervallen.
I allmänhet är det en bra idé att testa arbetsbelastningen och arbetsbelastningsmönstren innan du går till produktion.
Text till tal: öka gränsen för samtidiga begäranden
För standardprisnivån kan du öka det här beloppet. Innan du skickar begäran ska du se till att du är bekant med det material som beskrivs tidigare i den här artikeln, till exempel metodtipsen för att minska begränsningen.
Att öka gränsen för samtidiga begäranden påverkar inte dina kostnader direkt. Speech Service använder en betalningsmodell som kräver att du bara betalar för det du använder. Gränsen definierar hur högt tjänsten kan skalas innan den börjar begränsa dina begäranden.
Du kan inte se det befintliga värdet för parametern för samtidig gräns för begäranden i Azure Portal, kommandoradsverktygen eller API-begäranden. Om du vill verifiera det befintliga värdet skapar du en Azure Support begäran.
Kommentar
Talcontainrar kräver inte ökningar av gränsen för samtidiga begäranden, eftersom containrar endast begränsas av processorerna för den maskinvara som de finns på.
Förbereda nödvändig information
Om du vill skapa en begäran om ökning måste du ange din information.
- För den fördefinierade rösten:
- Talresurs-ID
- Region
- För den anpassade rösten:
- Distributionsregion
- Anpassat slutpunkts-ID
Så här hämtar du information för den fördefinierade rösten:
- Gå till Azure-portalen.
- Välj den Speech Service-resurs som du vill öka gränsen för samtidighetsbegäran för.
- I gruppen Resurshantering väljer du Egenskaper.
- Kopiera och spara värdena för följande fält:
- Resurs-ID
- Plats (din slutpunktsregion)
Så här hämtar du information för den anpassade rösten:
- Gå till Speech Studio-portalen .
- Logga in om det behövs och gå till Anpassad röst.
- Välj projektet och gå till Distribuera modell.
- Välj den slutpunkt som krävs.
- Kopiera och spara värdena för följande fält:
- Tjänstregion (din slutpunktsregion)
- Slutpunkts-ID
Skapa och skicka en supportbegäran
Initiera ökningen av gränsen för samtidiga begäranden för din resurs, eller kontrollera den aktuella gränsen vid behov genom att skicka en supportbegäran. Så här gör du:
- Se till att du har den information som krävs i föregående avsnitt.
- Gå till Azure-portalen.
- Välj den Taltjänstresurs som du vill öka (eller kontrollera) gränsen för samtidighetsbegäran för.
- I gruppen Support + felsökning väljer du Ny supportbegäran. Ett nytt fönster visas med automatiskt ifylld information om din Azure-prenumeration och Azure-resurs.
- I Sammanfattning beskriver du vad du vill ha (till exempel "Öka gränsen för text till talkonkurrensbegäran").
- I Problemtyp väljer du Kvot- eller prenumerationsproblem.
- I Problemundertyp väljer du antingen:
- Kvot- eller samtidiga begäranden ökar för en ökningsbegäran.
- Validering av kvot eller användning för att kontrollera den befintliga gränsen.
- På fliken Rekommenderad lösning väljer du Nästa.
- På fliken Ytterligare information fyller du i alla nödvändiga objekt. I fältet Information anger du följande:
- Observera att begäran handlar om text till tal-kvoten.
- Välj antingen den fördefinierade rösten eller den anpassade rösten.
- Den Azure-resursinformation som du samlade in tidigare.
- All annan nödvändig information.
- På fliken Granska + skapa väljer du Skapa.
- Anteckna numret för supportbegäran i Azure Portal-meddelanden. Du kontaktas snart om din begäran.
Text till tal-avatar: öka gränsen för nya anslutningar
Om du vill öka gränsen för nya anslutningar per minut för text till tal-avatar kontaktar du din säljare för att skapa ett ärende med följande information:
- Talresurs-URI
- Begärd ny begränsning att öka till
- Motivering för ökningen
- Startdatum för ökningen
- Slutdatum för ökningen
- Fördefinierad avatar eller anpassad avatar