Rozhraní REST API pro převod řeči na text pro krátký zvuk
Případy použití rozhraní REST API pro převod řeči na text jsou omezené. Používejte ho jenom v případech, kdy nemůžete použít sadu Speech SDK.
Než použijete rozhraní REST API pro převod řeči na text pro krátký zvuk, zvažte následující omezení:
- Požadavky, které používají rozhraní REST API pro krátký zvuk a přenášejí zvuk přímo, nesmí obsahovat více než 60 sekund zvuku. Formáty vstupního zvuku jsou ve srovnání se sadou Speech SDK omezenější.
- Rozhraní REST API pro krátký zvuk vrátí pouze konečné výsledky. Neposkytuje částečné výsledky.
- Překlad řeči se nepodporuje prostřednictvím rozhraní REST API pro krátký zvuk. Potřebujete použít sadu Speech SDK.
- Dávkové přepisy a vlastní řeč nejsou podporovány prostřednictvím rozhraní REST API pro krátký zvuk. K dávkovému přepisu a vlastní řeči byste měli vždy používat rozhraní REST API pro převod řeči na text.
Než použijete rozhraní Speech k textovému rozhraní REST API pro krátký zvuk, uvědomte si, že pro přístup ke službě potřebujete dokončit výměnu tokenů. Další informace najdete v tématu Ověřování.
Oblasti a koncové body
Koncový bod rozhraní REST API pro krátký zvuk má tento formát:
https://<REGION_IDENTIFIER>.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1
Nahraďte <REGION_IDENTIFIER>
identifikátorem, který odpovídá oblasti vašeho prostředku služby Speech.
Poznámka:
Informace o suverénních cloudech najdete v tomto článku o suverénních cloudech pro Azure Government a Microsoft Azure provozované koncovými body 21Vianet.
Formáty zvuku
Zvuk se odešle v textu požadavku HTTP POST
. Musí být v jednom z formátů v této tabulce:
Formát | Kodek | Přenosová rychlost | Vzorkovací frekvence |
---|---|---|---|
WAV | PCM | 256 kb/s | 16 kHz, mono |
OGG | OPUS | 256 kb/s | 16 kHz, mono |
Poznámka:
Předchozí formáty jsou podporovány prostřednictvím rozhraní REST API pro krátký zvuk a WebSocket ve službě Speech. Sada Speech SDK podporuje formát WAV s kodekem PCM a dalšími formáty.
Záhlaví žádosti
Tato tabulka obsahuje seznam povinných a volitelných hlaviček pro požadavky na převod řeči na text:
Hlavička | Popis | Požadované nebo volitelné |
---|---|---|
Ocp-Apim-Subscription-Key |
Váš klíč prostředku pro službu Speech | Buď toto záhlaví, nebo Authorization je povinné. |
Authorization |
Autorizační token před slovem Bearer . Další informace najdete v tématu Ověřování. |
Buď toto záhlaví, nebo Ocp-Apim-Subscription-Key je povinné. |
Pronunciation-Assessment |
Určuje parametry pro zobrazení skóre výslovnosti ve výsledcích rozpoznávání. Tato skóre vyhodnocují kvalitu výslovnosti vstupu řeči s indikátory, jako je přesnost, plynulost a úplnost. Tento parametr je JSON kódovaný kódem Base64, který obsahuje více podrobných parametrů. Informace o tom, jak vytvořit tuto hlavičku, najdete v tématu Parametry posouzení výslovnosti. |
Volitelné |
Content-type |
Popisuje formát a kodek zadaných zvukových dat. Přijaté hodnoty jsou audio/wav; codecs=audio/pcm; samplerate=16000 a audio/ogg; codecs=opus . |
Požaduje se |
Transfer-Encoding |
Určuje, že se odesílají blokovaná zvuková data, nikoli jeden soubor. Tato hlavička se používá jenom v případě, že data zvuku blokujete. | Volitelné |
Expect |
Pokud používáte blokovaný přenos, odešlete Expect: 100-continue . Služba Speech uznává počáteční požadavek a čeká na další data. |
Vyžaduje se, pokud odesíláte blokovaná zvuková data. |
Accept |
V případě potřeby musí být application/json . Služba Speech poskytuje výsledky ve formátu JSON. Některé architektury požadavků poskytují nekompatibilní výchozí hodnotu. Je vhodné vždy zahrnout Accept . |
Volitelné, ale doporučené. |
Parametry dotazů
Tyto parametry mohou být zahrnuty do řetězce dotazu požadavku REST.
Poznámka:
Abyste se vyhnuli chybě HTTP 4xx, musíte k adrese URL připojit parametr jazyka. Například jazyk nastavený na angličtinu v USA prostřednictvím koncového bodu USA – západ je: https://westus.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US
.
Parametr | Popis | Požadované nebo volitelné |
---|---|---|
language |
Identifikuje mluvený jazyk, který je rozpoznán. Viz podporované jazyky. | Požaduje se |
format |
Určuje formát výsledku. Přijaté hodnoty jsou simple a detailed . Mezi jednoduché výsledky patří RecognitionStatus , DisplayText , Offset a Duration . Podrobné odpovědi zahrnují čtyři různé reprezentace zobrazovaného textu. Výchozí nastavení je simple . |
Volitelné |
profanity |
Určuje způsob zpracování vulgárních výrazů ve výsledcích rozpoznávání. Přijaté hodnoty jsou: masked , který nahrazuje vulgární výraz hvězdičkami. removed , který z výsledku odebere všechny vulgární výrazy. raw včetně vulgárních výrazů ve výsledku. Výchozí nastavení je masked . |
Volitelné |
cid |
Když k vytváření vlastních modelů používáte Speech Studio, můžete využít hodnotu ID koncového bodu na stránce Nasazení. Jako argument pro parametr řetězce dotazu použijte hodnotu ID koncového cid bodu. |
Volitelné |
Parametry posouzení výslovnosti
Tato tabulka obsahuje seznam povinných a volitelných parametrů pro vyhodnocení výslovnosti:
Parametr | Popis | Požadované nebo volitelné |
---|---|---|
ReferenceText |
Text, proti kterému je výslovnost vyhodnocena. | Požaduje se |
GradingSystem |
Bodový systém pro kalibraci skóre. Systém FivePoint získá skóre s plovoucí deseti desetinou čárkou 0–5 a HundredMark získá skóre s plovoucí desetinou čárkou 0–100. Výchozí hodnota: FivePoint . |
Volitelné |
Granularity |
Členitost vyhodnocení. Přijaté hodnoty jsou:Phoneme , který zobrazuje skóre na úrovni fulltextu, slova a fofonu.Word , který zobrazuje skóre na úrovni fulltextu a slov. FullText , který zobrazuje skóre pouze na úrovni fulltextu.Výchozí nastavení je Phoneme . |
Volitelné |
Dimension |
Definuje výstupní kritéria. Přijaté hodnoty jsou:Basic , který zobrazuje pouze skóre přesnosti. Comprehensive , který zobrazuje skóre na více dimenzích (například skóre fluency a completeness score na úrovni fulltextu a typ chyby na úrovni slova).Pokud chcete zobrazit definice různých dimenzí skóre a typů chyb slov, podívejte se na vlastnosti odpovědi. Výchozí nastavení je Basic . |
Volitelné |
EnableMiscue |
Povolí výpočet chybného vzorce. Když je tento parametr povolený, výrazná slova se porovnávají s referenčním textem. Jsou označeny vynecháním nebo vložením na základě porovnání. Přijaté hodnoty jsou False a True . Výchozí nastavení je False . |
Volitelné |
ScenarioId |
Identifikátor GUID, který označuje přizpůsobený bodový systém. | Volitelné |
Tady je příklad KÓDU JSON, který obsahuje parametry vyhodnocení výslovnosti:
{
"ReferenceText": "Good morning.",
"GradingSystem": "HundredMark",
"Granularity": "FullText",
"Dimension": "Comprehensive"
}
Následující ukázkový kód ukazuje, jak do hlavičky Pronunciation-Assessment
sestavit parametry vyhodnocení výslovnosti:
var pronAssessmentParamsJson = $"{{\"ReferenceText\":\"Good morning.\",\"GradingSystem\":\"HundredMark\",\"Granularity\":\"FullText\",\"Dimension\":\"Comprehensive\"}}";
var pronAssessmentParamsBytes = Encoding.UTF8.GetBytes(pronAssessmentParamsJson);
var pronAssessmentHeader = Convert.ToBase64String(pronAssessmentParamsBytes);
Při odesílání zvukových dat důrazně doporučujeme nahrávat streamované (blokované přenosy), což může výrazně snížit latenci. Informace o povolení streamování najdete v ukázkovém kódu v různých programovacích jazycích.
Poznámka:
Další informace najdete v tématu Hodnocení výslovnosti.
Ukázkový požadavek
Následující ukázka obsahuje název hostitele a požadované hlavičky. Je důležité si uvědomit, že služba také očekává zvuková data, která nejsou součástí této ukázky. Jak už bylo zmíněno dříve, doporučuje se, ale nevyžaduje se vytváření bloků dat.
POST speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed HTTP/1.1
Accept: application/json;text/xml
Content-Type: audio/wav; codecs=audio/pcm; samplerate=16000
Ocp-Apim-Subscription-Key: YOUR_RESOURCE_KEY
Host: westus.stt.speech.microsoft.com
Transfer-Encoding: chunked
Expect: 100-continue
Pokud chcete povolit hodnocení výslovnosti, můžete přidat následující hlavičku. Informace o tom, jak vytvořit tuto hlavičku, najdete v tématu Parametry posouzení výslovnosti.
Pronunciation-Assessment: eyJSZWZlcm...
Stavové kódy HTTP
Stavový kód HTTP pro každou odpověď označuje úspěch nebo běžné chyby.
Stavový kód HTTP | Popis | Možné příčiny |
---|---|---|
100 | Pokračovat | Počáteční požadavek se přijme. Pokračujte v odesílání zbývajících dat. (Tento kód se používá s blokovaným přenosem.) |
200 | OK | Požadavek byl úspěšný. Tělo odpovědi je objekt JSON. |
400 | Chybný požadavek | Kód jazyka nebyl poskytnut, jazyk není podporovaný nebo je zvukový soubor neplatný (například). |
401 | Neautorizováno | Klíč prostředku nebo autorizační token je v zadané oblasti neplatný nebo koncový bod je neplatný. |
403 | Zakázáno | Chybí klíč prostředku nebo autorizační token. |
Ukázkové odpovědi
Tady je typická odpověď pro simple
rozpoznávání:
{
"RecognitionStatus": "Success",
"DisplayText": "Remind me to buy 5 pencils.",
"Offset": "1236645672289",
"Duration": "1236645672289"
}
Tady je typická odpověď pro detailed
rozpoznávání:
{
"RecognitionStatus": "Success",
"Offset": "1236645672289",
"Duration": "1236645672289",
"NBest": [
{
"Confidence": 0.9052885,
"Display": "What's the weather like?",
"ITN": "what's the weather like",
"Lexical": "what's the weather like",
"MaskedITN": "what's the weather like"
},
{
"Confidence": 0.92459863,
"Display": "what is the weather like",
"ITN": "what is the weather like",
"Lexical": "what is the weather like",
"MaskedITN": "what is the weather like"
}
]
}
Tady je typická odpověď pro rozpoznávání pomocí vyhodnocení výslovnosti:
{
"RecognitionStatus": "Success",
"Offset": "400000",
"Duration": "11000000",
"NBest": [
{
"Confidence" : "0.87",
"Lexical" : "good morning",
"ITN" : "good morning",
"MaskedITN" : "good morning",
"Display" : "Good morning.",
"PronScore" : 84.4,
"AccuracyScore" : 100.0,
"FluencyScore" : 74.0,
"CompletenessScore" : 100.0,
"Words": [
{
"Word" : "Good",
"AccuracyScore" : 100.0,
"ErrorType" : "None",
"Offset" : 500000,
"Duration" : 2700000
},
{
"Word" : "morning",
"AccuracyScore" : 100.0,
"ErrorType" : "None",
"Offset" : 5300000,
"Duration" : 900000
}
]
}
]
}
Vlastnosti odpovědi
Výsledky jsou k dispozici ve formátu JSON. Formát simple
obsahuje následující pole nejvyšší úrovně:
Vlastnost | Popis |
---|---|
RecognitionStatus |
Stav, například Success pro úspěšné uznání. Podívejte se na další tabulku. |
DisplayText |
Rozpoznaný text po psaní velkých písmen, interpunkci, normalizaci inverzního textu a maskování vulgárních výrazů. Prezentovat pouze při úspěchu. Inverzní normalizace textu je převod mluveného textu na kratší formy, například 200 pro "dvě stě" nebo "Dr. Smith" pro "doktor smith". |
Offset |
Čas (v 100 nanosekundových jednotkách), kdy rozpoznaná řeč začíná ve zvukovém streamu. |
Duration |
Doba trvání rozpoznané řeči ve zvukovém streamu (v 100 nanosekundových jednotkách). |
Pole RecognitionStatus
může obsahovat tyto hodnoty:
Status | Popis |
---|---|
Success |
Rozpoznávání bylo úspěšné a DisplayText pole je přítomné. |
NoMatch |
Ve zvukovém streamu byla zjištěna řeč, ale nebyla nalezena žádná slova z cílového jazyka. Tento stav obvykle znamená, že jazyk rozpoznávání se liší od jazyka, který uživatel mluví. |
InitialSilenceTimeout |
Začátek zvukového streamu obsahoval pouze ticho a služba vypršela při čekání na řeč. |
BabbleTimeout |
Začátek zvukového streamu obsahoval pouze šum a při čekání na řeč vypršel časový limit služby. |
Error |
Služba rozpoznávání zjistila vnitřní chybu a nemohla pokračovat. Pokud je to možné, zkuste to znovu. |
Poznámka:
Pokud se zvuk skládá pouze z vulgárních výrazů a profanity
parametr dotazu je nastavený na remove
, služba nevrací výsledek řeči.
Formát detailed
obsahuje více forem rozpoznaných výsledků.
Pokud používáte detailed
formát, DisplayText
zobrazí se pro Display
každý výsledek v NBest
seznamu.
Objekt v NBest
seznamu může obsahovat:
Vlastnost | Popis |
---|---|
Confidence |
Skóre spolehlivosti položky, od 0,0 (bez spolehlivosti) do 1,0 (úplná spolehlivost). |
Lexical |
Lexikální forma rozpoznaného textu: skutečná slova rozpoznaná. |
ITN |
Inverzní text normalizovaný (ITN) nebo kanonický tvar rozpoznaného textu s telefonními čísly, čísly, zkratkami ("doktor smith" na "dr smith") a dalšími použitými transformacemi. |
MaskedITN |
Formulář ITN s použitým maskováním vulgárních výrazů v případě potřeby. |
Display |
Formát zobrazení rozpoznaného textu s přidanou interpunkcí a velkými písmeny Tento parametr je stejný jako parametr, který DisplayText poskytuje, když je formát nastaven na simple . |
AccuracyScore |
Přesnost výslovnosti řeči Přesnost udává, jak přesně fonély odpovídají výslovnosti rodilého mluvčího. Skóre přesnosti na úrovni slova a fulltextu se agreguje z skóre přesnosti na úrovni foonemu. |
FluencyScore |
Plynulost poskytnuté řeči. Plynulost označuje, jak přesně řeč odpovídá použití tichých konců mezi slovy rodilého mluvčího. |
CompletenessScore |
Úplnost řeči určená výpočtem poměru výrazných slov k odkazování na textové zadání |
PronScore |
Celkové skóre, které označuje kvalitu výslovnosti poskytnuté řeči. Toto skóre se agreguje z AccuracyScore , FluencyScore a CompletenessScore s hmotností. |
ErrorType |
Hodnota, která označuje, zda je slovo vynecháno, vloženo nebo špatně vyslovováno ve srovnání s ReferenceText . Možné hodnoty jsou None (tj. bez chyby v tomto slově), Omission , Insertion a Mispronunciation . |
Přenos s blokem dat
Blokovaný přenos (Transfer-Encoding: chunked
) může pomoct snížit latenci rozpoznávání. Služba Speech umožňuje zahájit zpracování zvukového souboru během přenosu. Rozhraní REST API pro krátký zvuk neposkytuje částečné ani dočasné výsledky.
Následující ukázka kódu ukazuje, jak odeslat zvuk v blocích dat. Záhlaví zvukového souboru by mělo obsahovat pouze první blok dat. request
HttpWebRequest
je objekt, který je připojený k příslušnému koncovému bodu REST. audioFile
je cesta ke zvukovému souboru na disku.
var request = (HttpWebRequest)HttpWebRequest.Create(requestUri);
request.SendChunked = true;
request.Accept = @"application/json;text/xml";
request.Method = "POST";
request.ProtocolVersion = HttpVersion.Version11;
request.Host = host;
request.ContentType = @"audio/wav; codecs=audio/pcm; samplerate=16000";
request.Headers["Ocp-Apim-Subscription-Key"] = "YOUR_RESOURCE_KEY";
request.AllowWriteStreamBuffering = false;
using (var fs = new FileStream(audioFile, FileMode.Open, FileAccess.Read))
{
// Open a request stream and write 1,024-byte chunks in the stream one at a time.
byte[] buffer = null;
int bytesRead = 0;
using (var requestStream = request.GetRequestStream())
{
// Read 1,024 raw bytes from the input audio file.
buffer = new Byte[checked((uint)Math.Min(1024, (int)fs.Length))];
while ((bytesRead = fs.Read(buffer, 0, buffer.Length)) != 0)
{
requestStream.Write(buffer, 0, bytesRead);
}
requestStream.Flush();
}
}
Ověřování
Každý požadavek vyžaduje autorizační hlavičku. Tato tabulka znázorňuje, která záhlaví jsou pro každou funkci podporovaná:
Podporovaná autorizační hlavička | Převod řeči na text | Text na řeč |
---|---|---|
Ocp-Apim-Subscription-Key |
Ano | Ano |
Authorization: Bearer |
Ano | Yes |
Pokud používáte hlavičku Ocp-Apim-Subscription-Key
, musíte zadat jenom klíč prostředku. Příklad:
'Ocp-Apim-Subscription-Key': 'YOUR_SUBSCRIPTION_KEY'
Když používáte hlavičku Authorization: Bearer
, musíte do koncového issueToken
bodu vytvořit požadavek. V této žádosti si vyměníte svůj klíč prostředku za přístupový token, který je platný 10 minut.
Další možností je použít ověřování Microsoft Entra, které také používá hlavičku Authorization: Bearer
, ale s tokenem vydaným prostřednictvím ID Microsoft Entra. Viz Použití ověřování Microsoft Entra.
Jak získat přístupový token
Pokud chcete získat přístupový token, musíte do koncového issueToken
bodu vytvořit požadavek pomocí Ocp-Apim-Subscription-Key
svého klíče prostředku.
Koncový issueToken
bod má tento formát:
https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
Nahraďte <REGION_IDENTIFIER>
identifikátorem, který odpovídá oblasti vašeho předplatného.
K vytvoření žádosti o přístupový token použijte následující ukázky.
Ukázka PROTOKOLU HTTP
Tento příklad je jednoduchý požadavek HTTP pro získání tokenu. Nahraďte YOUR_SUBSCRIPTION_KEY
klíčem prostředku pro službu Speech. Pokud vaše předplatné není v oblasti USA – západ, nahraďte Host
záhlaví názvem hostitele vaší oblasti.
POST /sts/v1.0/issueToken HTTP/1.1
Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY
Host: eastus.api.cognitive.microsoft.com
Content-type: application/x-www-form-urlencoded
Content-Length: 0
Text odpovědi obsahuje přístupový token ve formátu JSON Web Token (JWT).
Ukázka PowerShellu
Tento příklad je jednoduchý skript PowerShellu pro získání přístupového tokenu. Nahraďte YOUR_SUBSCRIPTION_KEY
klíčem prostředku pro službu Speech. Ujistěte se, že používáte správný koncový bod pro oblast, která odpovídá vašemu předplatnému. Tento příklad je aktuálně nastavený na USA – západ.
$FetchTokenHeader = @{
'Content-type'='application/x-www-form-urlencoded';
'Content-Length'= '0';
'Ocp-Apim-Subscription-Key' = 'YOUR_SUBSCRIPTION_KEY'
}
$OAuthToken = Invoke-RestMethod -Method POST -Uri https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken
-Headers $FetchTokenHeader
# show the token received
$OAuthToken
Ukázka cURL
cURL je nástroj příkazového řádku dostupný v Linuxu (a v Subsystém Windows pro Linux). Tento příkaz cURL ukazuje, jak získat přístupový token. Nahraďte YOUR_SUBSCRIPTION_KEY
klíčem prostředku pro službu Speech. Ujistěte se, že používáte správný koncový bod pro oblast, která odpovídá vašemu předplatnému. Tento příklad je aktuálně nastavený na USA – západ.
curl -v -X POST \
"https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken" \
-H "Content-type: application/x-www-form-urlencoded" \
-H "Content-Length: 0" \
-H "Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY"
Ukázka v jazyce C#
Tato třída jazyka C# ukazuje, jak získat přístupový token. Klíč prostředku pro službu Speech předejte při vytváření instance třídy. Pokud vaše předplatné není v oblasti USA – západ, změňte hodnotu FetchTokenUri
tak, aby odpovídala oblasti vašeho předplatného.
public class Authentication
{
public static readonly string FetchTokenUri =
"https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken";
private string subscriptionKey;
private string token;
public Authentication(string subscriptionKey)
{
this.subscriptionKey = subscriptionKey;
this.token = FetchTokenAsync(FetchTokenUri, subscriptionKey).Result;
}
public string GetAccessToken()
{
return this.token;
}
private async Task<string> FetchTokenAsync(string fetchUri, string subscriptionKey)
{
using (var client = new HttpClient())
{
client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
UriBuilder uriBuilder = new UriBuilder(fetchUri);
var result = await client.PostAsync(uriBuilder.Uri.AbsoluteUri, null);
Console.WriteLine("Token Uri: {0}", uriBuilder.Uri.AbsoluteUri);
return await result.Content.ReadAsStringAsync();
}
}
}
Ukázka Pythonu
# Request module must be installed.
# Run pip install requests if necessary.
import requests
subscription_key = 'REPLACE_WITH_YOUR_KEY'
def get_token(subscription_key):
fetch_token_url = 'https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken'
headers = {
'Ocp-Apim-Subscription-Key': subscription_key
}
response = requests.post(fetch_token_url, headers=headers)
access_token = str(response.text)
print(access_token)
Jak používat přístupový token
Přístupový token by měl být odeslán do služby jako hlavička Authorization: Bearer <TOKEN>
. Každý přístupový token je platný po dobu 10 minut. Nový token můžete kdykoli získat, ale pokud chcete minimalizovat síťový provoz a latenci, doporučujeme použít stejný token po dobu devíti minut.
Tady je ukázkový požadavek HTTP na rozhraní REST API pro převod řeči na text pro krátký zvuk:
POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive
// Message body here...
Používání ověřování Microsoft Entra
Pokud chcete pro krátký zvuk použít ověřování Microsoft Entra s rozhraním REST API pro převod řeči na text, musíte vytvořit přístupový token. Postup získání přístupového tokenu, který se skládá z ID prostředku a přístupového tokenu Microsoft Entra, jsou stejné jako při použití sady Speech SDK. Postupujte podle zde uvedených kroků, použijte ověřování Microsoft Entra.
- Vytvoření prostředku služby Speech
- Konfigurace prostředku služby Speech pro ověřování Microsoft Entra
- Získání přístupového tokenu Microsoft Entra
- Získání ID prostředku služby Speech
Po získání ID prostředku a přístupového tokenu Microsoft Entra lze skutečný přístupový token vytvořit pomocí tohoto formátu:
aad#YOUR_RESOURCE_ID#YOUR_MICROSOFT_ENTRA_ACCESS_TOKEN
Musíte zahrnout předponu "aad#" a oddělovač hodnot hash (#) mezi ID prostředku a přístupový token.
Tady je ukázkový požadavek HTTP na rozhraní REST API pro převod řeči na text pro krátký zvuk:
POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive
// Message body here...
Další informace o přístupovýchtokench