Přizpůsobení hlasu a zvuku pomocí SSML
Pomocí jazyka SSML (Speech Synthesis Markup Language) můžete zadat text pro hlasový hlas, jazyk, název, styl a roli pro výstup řeči. V jednom dokumentu SSML můžete také použít více hlasů a upravit důraz, rychlost mluvení, výšku a hlasitost. Kromě toho SSML nabízí možnost vkládat předem zaznamenaný zvuk, například zvukový efekt nebo hudební poznámku.
V článku se dozvíte, jak pomocí prvků SSML určit hlas a zvuk. Další informace o syntaxi SSML najdete v tématu Struktura a události dokumentu SSML.
Použití hlasových prvků
Alespoň jeden voice
prvek musí být zadán v rámci každého SSML speak elementu. Tento prvek určuje hlas, který se používá pro převod textu na řeč.
Do jednoho dokumentu SSML můžete zahrnout více voice
prvků. Každý voice
prvek může zadat jiný hlas. Stejný hlas můžete použít i několikrát s různými nastaveními, například když změníte dobu ticha mezi větami.
Následující tabulka popisuje použití voice
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
name |
Hlas používaný pro převod textu na výstup řeči. Úplný seznam podporovaných předem připravených hlasů najdete v tématu Podpora jazyků. | Požaduje se |
effect |
Procesor zvukového efektu, který se používá k optimalizaci kvality syntetizovaného výstupu řeči pro konkrétní scénáře na zařízeních. U některých scénářů v produkčních prostředích může být sluchové prostředí snížené kvůli zkreslení přehrávání na určitých zařízeních. Syntetizovaná řeč z reproduktoru auta může například znít nudně a muffed z důvodu environmentálních faktorů, jako je odezva mluvčího, ozvěna místnosti a šum na pozadí. Cestující možná bude muset zvýšit hlasitost, aby slyšeli jasněji. Aby se v takovém scénáři zabránilo ručním operacím, může procesor zvukového efektu usnadnit zvuk kompenzací zkreslení přehrávání. Podporovány jsou následující hodnoty:
Pokud hodnota chybí nebo je neplatná, tento atribut se ignoruje a nepoužije se žádný efekt. |
Volitelné |
Příklady hlasových hovorů
Informace o podporovaných hodnotách pro atributy elementu voice
naleznete v tématu Použití hlasových prvků.
Příklad s jedním hlasem
Tento příklad používá en-US-AvaMultilingualNeural
hlas.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
This is the text that is spoken.
</voice>
</speak>
Příklad více hlasů
V rámci elementu speak
můžete zadat více hlasů pro výstup převodu textu na řeč. Tyto hlasy můžou být v různých jazycích. U každého hlasu musí být text zalomený do elementu voice
.
Tento příklad se liší mezi en-US-AvaMultilingualNeural
hlasy a en-US-AndrewMultilingualNeural
hlasy. Neurální vícejazyčné hlasy mohou mluvit různými jazyky na základě vstupního textu.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Good morning!
</voice>
<voice name="en-US-AndrewMultilingualNeural">
Good morning to you too Ava!
</voice>
</speak>
Příklad vlastního neurálního hlasu
Pokud chcete použít vlastní neurální hlas, zadejte název modelu jako název hlasu v SSML.
Tento příklad používá vlastní hlas s názvem my-custom-voice.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="my-custom-voice">
This is the text that is spoken.
</voice>
</speak>
Příklad zvukového efektu
Tento atribut použijete effect
k optimalizaci auditorské zkušenosti pro scénáře, jako jsou auta a telekomunikační technologie. Následující příklad SSML používá effect
atribut s konfigurací ve scénářích automobilů.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural" effect="eq_car">
This is the text that is spoken.
</voice>
</speak>
Použití stylů a rolí pro mluvení
Ve výchozím nastavení mají neurální hlasy neutrální styl mluvení. Styl mluvení, stupeň stylu a roli můžete upravit na úrovni věty.
Poznámka:
Služba Speech podporuje styly, stupeň stylu a role pro podmnožinu neurálních hlasů, jak je popsáno v dokumentaci k hlasovým stylům a rolím . Pokud chcete určit podporované styly a role pro každý hlas, můžete také použít rozhraní API pro seznam hlasů a webovou aplikaci pro vytváření zvukového obsahu.
Následující tabulka popisuje použití mstts:express-as
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
style |
Styl mluvení specifický pro hlas. Můžete vyjádřit emoce, jako je veselost, empatie a klid. Hlas můžete také optimalizovat pro různé scénáře, jako je zákaznický servis, newscast a hlasový asistent. Pokud hodnota stylu chybí nebo je neplatná, celý mstts:express-as prvek se ignoruje a služba používá výchozí neutrální řeč. Vlastní styly neurálních hlasů najdete v příkladu vlastního stylu neurálního hlasu. |
Požaduje se |
styledegree |
Intenzita mluvného stylu. Můžete určit silnější nebo měkčí styl, aby byl řeč výraznější nebo subdutnější. Rozsah přijatých hodnot je: 0.01 pro 2 inkluzivní. Výchozí hodnota je 1 , což znamená intenzitu předdefinovaného stylu. Minimální jednotka je 0.01 , což vede k mírnému sklonu pro cílový styl. Hodnota 2 výsledků při zdvojnásobení výchozí intenzity stylu. Pokud ve vašem hlasu chybí stupeň stylu nebo ho váš hlas nepodporuje, bude tento atribut ignorován. |
Volitelné |
role |
Mluvená role. Hlas může napodobovat jiný věk a pohlaví, ale jméno hlasu se nezmění. Například mužský hlas může zvýšit tón a změnit intonaci tak, aby napodobuje ženský hlas, ale jméno hlasu se nezmění. Pokud role chybí nebo není pro váš hlas podporovaná, bude tento atribut ignorován. | Volitelné |
Následující tabulka popisuje každý podporovaný style
atribut:
Styl | Popis |
---|---|
style="advertisement_upbeat" |
Vyjadřuje nadšený a vysoce energetický tón pro podporu produktu nebo služby. |
style="affectionate" |
Vyjadřuje teplý a milý tón s vyšší výškou a hlasitou energií. Mluvčí je ve stavu, kdy přiláká pozornost posluchače. Osobnostmluvčího |
style="angry" |
Vyjadřuje rozzlobený a naštvaný tón. |
style="assistant" |
Vyjadřuje teplý a uvolněný tón digitálních asistentů. |
style="calm" |
Vyjadřuje chladný, shromážděný a složený postoj při mluvení. Tóny, tóny a prosody jsou v porovnání s jinými typy řeči jednotnější. |
style="chat" |
Vyjadřuje neformální a uvolněný tón. |
style="cheerful" |
Vyjadřuje pozitivní a šťastný tón. |
style="customerservice" |
Vyjadřuje přátelský a užitečný tón pro zákaznickou podporu. |
style="depressed" |
Vyjadřuje melancholic a despondentní tón s nižším sklonem a energií. |
style="disgruntled" |
Vyjadřuje pohrdání a stěžuje si na tón. Řeč této emoce zobrazuje nelibost a opovržení. |
style="documentary-narration" |
Předčítá dokumenty v uvolněném, zajímavém a informativním stylu vhodném pro dokumenty, odborné komentáře a podobný obsah. |
style="embarrassed" |
Vyjadřuje nejistý a hesitantní tón, když se mluvčí cítí nepříjemně. |
style="empathetic" |
Vyjadřuje smysl pro péči a porozumění. |
style="envious" |
Vyjadřuje tón obdivu, když si přejete něco, co má někdo jiný. |
style="excited" |
Vyjadřuje upbeat a doufáme, že tón. Zní to, že se děje něco skvělého a mluvčí o tom má radost. |
style="fearful" |
Vyjadřuje vyděšený a nervózní tón s vyšší výškou, vyšší hlasovou energií a rychlejší rychlostí. Mluvčí je ve stavu napětí a unease. |
style="friendly" |
Vyjadřuje příjemný, pozvaný a teplý tón. Zní to upřímně a péče. |
style="gentle" |
Vyjadřuje mírný, zdvořilý a příjemný tón s nižším sklonem a hlasitou energií. |
style="hopeful" |
Vyjadřuje teplou a roční tón. Zní to jako něco dobrého, co se stane mluvčímu. |
style="lyrical" |
Vyjadřuje emoce melodickým a sentimentálním způsobem. |
style="narration-professional" |
Vyjadřuje profesionální, objektivní tón pro čtení obsahu. |
style="narration-relaxed" |
Vyjadřuje relaxační a melodické tóny pro čtení obsahu. |
style="newscast" |
Vyjadřuje formální a profesionální tón pro předčítání zpráv. |
style="newscast-casual" |
Vyjadřuje všestranný a neformální tón pro obecné doručování zpráv. |
style="newscast-formal" |
Vyjadřuje formální, sebevědomý a autoritativní tón pro doručování zpráv. |
style="poetry-reading" |
Vyjadřuje emocionální a rytmický tón při čtení básně. |
style="sad" |
Vyjadřuje smutku. |
style="serious" |
Vyjadřuje striktní a příkazový tón. Reproduktor často zní tužší a mnohem méně uvolněný s pevným tempem. |
style="shouting" |
Vyjadřuje tón, který zní, jako by byl hlas vzdálený nebo na jiném místě a snažil se jasně slyšet. |
style="sports_commentary" |
Vyjadřuje uvolněný a zájem o tón pro vysílání sportovní události. |
style="sports_commentary_excited" |
Vyjadřuje intenzivní a intenzivní tón pro vysílání zajímavých momentů ve sportovní události. |
style="whispering" |
Vyjadřuje měkký tón, který se snaží udělat tichý a jemný zvuk. |
style="terrified" |
Vyjadřuje vyděšený tón s rychlejším tempem a hlasem zatřesením. Zní to, že mluvčí je v nestabilní a zběsilém stavu. |
style="unfriendly" |
Vyjadřuje chlad a necitlivé tóny. |
Následující tabulka obsahuje popis jednotlivých podporovaných role
atributů:
Role | Popis |
---|---|
role="Girl" |
Hlas napodobuje dívku. |
role="Boy" |
Hlas napodobuje chlapce. |
role="YoungAdultFemale" |
Hlas napodobuje mladé dospělé ženy. |
role="YoungAdultMale" |
Hlas napodobuje mladého dospělého muže. |
role="OlderAdultFemale" |
Hlas napodobuje starší dospělé ženy. |
role="OlderAdultMale" |
Hlas napodobuje starší dospělého muže. |
role="SeniorFemale" |
Hlas napodobuje seniorku. |
role="SeniorMale" |
Hlas napodobuje staršího muže. |
Mstts express-as examples
Informace o podporovaných hodnotách pro atributy elementu mstts:express-as
naleznete v tématu Použití stylů a rolí mluvení.
Příklad stylu a stupně
Tento prvek používáte mstts:express-as
k vyjádření emocí, jako je veselost, empatie a klid. Hlas můžete také optimalizovat pro různé scénáře, jako je zákaznický servis, newscast a hlasový asistent.
Následující příklad SSML používá <mstts:express-as>
prvek se stupněm sad
2
stylu .
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
<mstts:express-as style="sad" styledegree="2">
快走吧,路上一定要注意安全,早去早回。
</mstts:express-as>
</voice>
</speak>
Příklad role
Kromě úpravy stylů mluvení a stupně stylu můžete také upravit role
parametr tak, aby hlas napodobuje jiný věk a pohlaví. Například mužský hlas může zvýšit tón a změnit intonaci tak, aby napodobuje ženský hlas, ale jméno hlasu se nezmění.
Tento fragment kódu SSML ukazuje, jak role
se atribut používá ke změně role pro zh-CN-XiaomoNeural
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
女儿看见父亲走了进来,问道:
<mstts:express-as role="YoungAdultFemale" style="calm">
“您来的挺快的,怎么过来的?”
</mstts:express-as>
父亲放下手提包,说:
<mstts:express-as role="OlderAdultMale" style="calm">
“刚打车过来的,路上还挺顺畅。”
</mstts:express-as>
</voice>
</speak>
Příklad vlastního neurálního hlasu
Svůj vlastní neurální hlas můžete trénovat tak, aby mluvil s některými přednastavenými styly, jako cheerful
je , sad
a whispering
. Můžete také vytrénovat vlastní neurální hlas tak, aby mluvil ve vlastním stylu podle trénovacích dat. Pokud chcete použít vlastní styl neurálního hlasu v SSML, zadejte název stylu, který jste dříve zadali v sadě Speech Studio.
Tento příklad používá vlastní hlas s názvem my-custom-voice. Vlastní hlas mluví s přednastaveným cheerful
stylem a stupněm 2
stylu a pak s vlastním stylem s názvem my-custom-style a style stupeň 0.01
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="my-custom-voice">
<mstts:express-as style="cheerful" styledegree="2">
That'd be just amazing!
</mstts:express-as>
<mstts:express-as style="my-custom-style" styledegree="0.01">
What's next?
</mstts:express-as>
</voice>
</speak>
ID profilu mluvčího
Tento prvek slouží mstts:ttsembedding
k určení speakerProfileId
vlastnosti pro osobní hlas. Osobní hlas je vlastní neurální hlas, který je trénovaný na vašem vlastním hlasu nebo hlasu zákazníka. Další informace najdete v tématu Vytvoření osobního hlasu.
Následující příklad SSML používá <mstts:ttsembedding>
element s hlasovým jménem a ID profilu mluvčího.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.
</mstts:ttsembedding>
</voice>
</speak>
Úprava jazyků pro mluvení
Ve výchozím nastavení můžou vícejazyčné hlasy automaticky zjistit jazyk vstupního textu a mluvit v jazyce výchozího národního prostředí vstupního textu bez použití SSML. Volitelně můžete pomocí <lang xml:lang>
prvku upravit jazyk mluvení pro tyto hlasy a nastavit upřednostňovaný zvýraznění, například en-GB
pro britskou angličtinu. Jazyk mluvení můžete upravit na úrovni věty i na úrovni slova. Informace o podporovaných jazycích pro vícejazyčný hlas naleznete v tématu Vícejazyčné hlasy s elementem jazyka pro tabulku zobrazující <lang>
definice syntaxe a atributů.
Následující tabulka popisuje použití <lang xml:lang>
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
xml:lang |
Jazyk, který chcete, aby neurální hlas mluvil. | Vyžaduje se k úpravě jazyka mluvení pro neurální hlas. Pokud používáte lang xml:lang , musí být zadané národní prostředí. |
Poznámka:
Prvek <lang xml:lang>
není kompatibilní s prosody
prvky a break
prvky. V tomto prvku nemůžete nastavit pozastavení a prosody, jako je rozteč, obrys, rychlost nebo hlasitost.
Nejazyčné hlasy nepodporují <lang xml:lang>
prvek záměrně.
Vícejazyčné hlasy s prvkem jazyka
V části vícejazyčné hlasy můžete určit, které jazyky služba Speech podporuje pro každý neurální hlas, jak je znázorněno v následující ukázkové tabulce. Pokud hlas nemluví jazykem vstupního textu, služba Speech nevypíše syntetizovaný zvuk.
Hlasový hovor | Automaticky rozpoznané číslo jazyka | Automaticky rozpoznaný jazyk (národní prostředí) | Všechna národní prostředí | Všechny jazyky (národní prostředí) podporované v SSML |
---|---|---|---|---|
en-US-AndrewMultilingualNeural 1 (Muž)en-US-AvaMultilingualNeural 1 (Žena)en-US-BrianMultilingualNeural 1 (Muž)en-US-EmmaMultilingualNeural 1 (Žena) |
77 | Afrikaans (), Albánština (af-ZA sq-AL ), Amharština (am-ET ), Arabština (ar-EG ), Arménská (hy-AM ), Ázerbájdžánština (az-AZ ), Bahasa Indonéština (), Bangla (id-ID bn-BD ), Baskičtina (eu-ES ), Bengali (bn-IN ), Bosenštinabs-BA (), Bulharština (), Burmština (my-MM ), katalánština (ca-ES ), čínština (Kantonese),zh-HK čínština (), čínština (zh-CN zh-TW ), chorvatština (hr-HR ), češtinacs-CZ (), dánština (da-DK ), holandštinanl-NL (), angličtina (en-US ), estonskoet-EE (), filipínština (bg-BG fil-PH ), finština (fi-FI ), francouzština ()fr-FR ), Galicijština (gl-ES ), Gruzieka-GE (), němčina (de-DE ), řečtina (el-GR ), hebrejština (he-IL ), hindština (hi-IN ), maďarština (hu-HU ), islandština (is-IS ), irština (ga-IE ), italština (it-IT ), japonština (ja-JP ), javanština (jv-ID ),kn-IN kazaština (kk-KZ ), khmerština (km-KH ), korejština (ko-KR ), Lao (lo-LA ), Lotyštinalt-LT (lv-LV ), Makedonština (mk-MK ), Malajštinams-MY (), Malajština (), Maltština (mt-MT ml-IN ), Mongolštinamn-MN (), Nepálština (ne-NP ), Norština Bokmål (nb-NO ), Pashto (ps-AF ), perština (), polština (fa-IR pl-PL ), portugalština (pt-BR ), rumunština (ro-RO ), ruština (ru-RU ), srbština (sr-RS ), sinhala (si-LK ), slovenština (sk-SK ), slovenština (sl-SI ), somali (so-SO ), španělština (es-ES ), nepoužádština (su-ID ), švédštinasw-KE (sv-SE ), tamilština (ta-IN ), telugu (te-IN ), thajština (th-TH ), turečtina (tr-TR ), ruština (), ruština (), ukrajinština (uk-UA ), Urdu (ur-PK ), Uzbek (uz-UZ ), Vietnamština (vi-VN ), Welsh (cy-GB ), Zulu (zu-ZA ) |
91 | Afrikánština (Jihoafrická republika) (af-ZA ), Albánská (Albánie) (sq-AL ), Amharština (Etiopie) (am-ET ), arabština (Egypt) (ar-EG ), arabština (Saúdská Arábie) (ar-SA ), Arménská (Arménie) (hy-AM ), Ázerbájdžánština (Ázerbájdžán) (az-AZ ), Baskičtina (Baskičtina),eu-ES Bengálština (Indie) (bn-IN ), Bosenština (Bosna a Hercegovina) (bs-BA ), Bulharština (bg-BG Bulharsko), Burmština (Myanmar) (my-MM ), katalánština (Španělsko), čínština (ca-ES Kantonese, Tradiční) (), čínština (zh-HK mandarínština, zjednodušená),zh-CN čínština (tchaj-wanština mandarínština) ( zh-TW ), chorvatština (Chorvatsko),hr-HR čeština (cs-CZ čeština), dánština (Dánsko) (da-DK ), nizozemština (Belgie) (nl-BE ), nizozemština (nl-NL Nizozemsko), angličtina (Austrálie) (en-AU ), angličtina (Kanada) (en-CA ), angličtina (Hongkong) (), angličtina (en-HK Indie) (en-IN ), angličtina (Irskoen-IE ), angličtina (Spojené království) (en-GB ), angličtina (USA) (en-US ), estonština (Estonsko),et-EE Filipínština (Filipíny) (fil-PH ), finština (Finsko) (fi-FI ), francouzština (Belgie) (fr-BE ), francouzština (Kanada),fr-CA francouzština (Francie), francouzština (fr-FR Švýcarsko) (fr-CH ), Galicijština (Galicijština) (gl-ES ), Gruzie (Gruzie) (ka-GE ), němčina (Rakousko) (de-AT ), němčina (Německo) (), němčina (de-DE Švýcarsko) (de-CH ), řečtina (Řecko) (el-GR Řecko) ), hebrejština (he-IL Izrael), hindština (hi-IN Indie), maďarština (Maďarsko) (hu-HU ), islandský (island) (is-IS ), indonéština (Indonésie) (id-ID ), irská (Irsko) (ga-IE ), italština (Itálie) (it-IT ), japonština (Japonsko) (), Javánština (ja-JP Indonésie) ( jv-ID ), Kannada (Indie) (kn-IN ), Kazaština (Kazachstán) (kk-KZ ), Khmer (Kambodža) (km-KH ), Korejština (Korea) (), Lao (ko-KR Laos) (lo-LA ), Lotyština (Lotyšsko) (lv-LV ), Litevština (Litva) (lt-LT ), Makedonština (Severní Makedonie) (mk-MK ), Malajština (Malajsie) (ms-MY ), Malajam (Indie) (Indie) (Malta) (), Mongolsko (Mongolsko) (), Nepálština (Nepál) (Norština (Bokmål), Malajál (Indie) (Indie) (ml-IN Malta) (Malta) (mt-MT ), Mongolština (Mongolsko) (mn-MN Nepál) (Norština (ne-NP Bokmål), Norsko (nb-NO ), Pashto (ps-AF Afghánistán), Perština (Írán) (fa-IR ), Polština (Polsko) (pl-PL ), portugalština (Brazílie),pt-BR portugalština (pt-PT Portugalsko), rumunština (Rumunsko) (ro-RO ), ruština (Rusko) (ru-RU ), srbština (cyrilice, Srbsko) (), Sinhala (sr-RS Srí Lanka) (si-LK ), Slovenština (Slovensko) (sk-SK ), Slovinština (Slovinsko) (sl-SI ), Somali (Somalia) (so-SO ), Španělština (Mexiko), Španělština (es-MX Španělsko) (es-ES ), Sundanese (Indonésie) (su-ID ), Swahili (Keňa) (sw-KE ), Švédština (Švédsko) (sv-SE ), Tamilština (Indie) (ta-IN ), Telugu (Indie) (), Thajská (te-IN Thajsko) (th-TH ), turečtina (Türkiye) (tr-TR ), ukrajinština (Ukrajina) (uk-UA ), Urdu (Pákistán) (ur-PK ), Uzbek (Pákistán) (uz-UZ ), Vietnamština (Vietnam) (vi-VN ), Welsh (Spojené království) (cy-GB ), Zulu (Jižní Afrika) (zu-ZA ) |
1 Jedná se o neurální vícejazyčné hlasy ve službě Azure AI Speech. Všechny vícejazyčné hlasy můžou mluvit v jazyce ve výchozím národním prostředí vstupního textu bez použití SSML. Přesto ale můžete pomocí <lang xml:lang>
prvku upravit mluvený přízvuk každého jazyka a nastavit upřednostňovaný zvýraznění, jako je britský zvýraznění (en-GB
) pro angličtinu. Primární národní prostředí pro každý hlas je označeno předponou v jejím názvu, například hlasem en-US-AndrewMultilingualNeural
, jeho primárním národním prostředím je en-US
.
Poznámka:
Vícejazyčné hlasy plně nepodporují určité prvky SSML, například break
, emphasis
, silence
a sub
.
Příklady jazyka
Informace o podporovaných hodnotách pro atributy elementu lang
naleznete v tématu Úprava jazyka mluvení.
Musíte zadat en-US
jako výchozí jazyk v rámci elementu speak
, zda je jazyk upraven jinde. V tomto příkladu je en-US
primární jazyk pro en-US-AvaMultilingualNeural
.
Tento fragment kódu SSML ukazuje, jak použít <lang xml:lang>
k mluvení s de-DE
neurálním hlasem en-US-AvaMultilingualNeural
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="de-DE">
Wir freuen uns auf die Zusammenarbeit mit Ihnen!
</lang>
</voice>
</speak>
V rámci elementu speak
můžete zadat více jazyků, včetně en-US
pro výstup převodu textu na řeč. U každého upraveného jazyka musí text odpovídat jazyku a musí být zabalený do elementu voice
. Tento fragment kódu SSML ukazuje, jak použít <lang xml:lang>
ke změně jazyka mluvení na es-MX
, en-US
a fr-FR
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="es-MX">
¡Esperamos trabajar con usted!
</lang>
<lang xml:lang="en-US">
We look forward to working with you!
</lang>
<lang xml:lang="fr-FR">
Nous avons hâte de travailler avec vous!
</lang>
</voice>
</speak>
Úprava prozódie
Pomocí prvku můžete prosody
určit změny ve výstupu řeči na výšku, obrys, rozsah, rychlost a hlasitost textu. Prvek prosody
může obsahovat text a následující prvky: audio
, break
, p
, phoneme
, prosody
, , say-as
, , sub
, a s
.
Vzhledem k tomu, že hodnoty atributu prosodic se můžou v širokém rozsahu lišit, interpretuje rozpoznávání řeči přiřazené hodnoty jako návrh skutečné prosodické hodnoty vybraného hlasu. Omezení textu na řeč nebo nahrazení hodnot, které nejsou podporované. Příklady nepodporovaných hodnot jsou rozteč 1 MHz nebo objem 120.
Následující tabulka popisuje použití prosody
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
contour |
Obrys znázorňuje změny v rozteč. Tyto změny jsou reprezentovány jako pole cílů v zadaných časových pozicích ve výstupu řeči. Sady párů parametrů definují každý cíl. Příklad: <prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)"> První hodnota v každé sadě parametrů určuje umístění změny sklonu v procentech doby trvání textu. Druhá hodnota určuje hodnotu, která má zvýšit nebo snížit výšku pomocí relativní hodnoty nebo hodnoty výčtu pro rozteč (viz pitch ). Rozteč obrysu nefunguje u jednoduchých slov a krátkých frází. Doporučujeme upravit obrys rozteče u celých vět nebo dlouhých frází. |
Volitelné |
pitch |
Určuje směrný plán pro text. Změny výšky se dají použít na úrovni vět. Změny výšky by měly být ve 0,5 až 1,5krát původní zvuk. Prezentaci můžete vyjádřit takto:
|
Volitelné |
range |
Hodnota, která představuje rozsah rozteče textu. Můžete vyjádřit range pomocí stejných absolutních hodnot, relativních hodnot nebo hodnot výčtu použitých k popisu pitch . |
Volitelné |
rate |
Označuje míru mluvení textu. Mluvení lze použít na úrovni slova nebo věty. Změny rychlosti by měly být v čase 0.5 2 původního zvuku. Můžete vyjádřit rate takto:
|
Volitelné |
volume |
Označuje úroveň hlasitosti hlasového hlasu. Změny hlasitosti lze použít na úrovni věty. Svazek můžete vyjádřit takto:
|
Volitelné |
Příklady prosody
Informace o podporovaných hodnotách pro atributy elementu prosody
naleznete v části Adjust prosody.
Příklad změny míry mluvení
Tento fragment kódu SSML ukazuje, jak rate
se atribut používá ke změně míry mluvení na 30 % vyšší než výchozí rychlost.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody rate="+30.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Příklad změny svazku
Tento fragment kódu SSML ukazuje, jak volume
se atribut používá ke změně svazku na 20 % větší než výchozí svazek.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody volume="+20.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Změna příkladu prezentace
Tento fragment kódu SSML ukazuje, jak pitch
se atribut používá, aby hlas mluvil ve vysoké rozsadě.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
</voice>
</speak>
Změna obrysu rozteče – příklad
Tento fragment kódu SSML ukazuje, jak contour
se atribut používá ke změně obrysu.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody contour="(60%,-60%) (100%,+80%)" >
Were you the only person in the room?
</prosody>
</voice>
</speak>
Úprava zvýraznění
Volitelný prvek můžete použít emphasis
k přidání nebo odebrání napětí na úrovni slova pro text. Tento prvek může obsahovat pouze text a následující prvky: audio
, break
, emphasis
, lang
, phoneme
, prosody
, , sub
say-as
a voice
.
Poznámka:
Ladění na úrovni slov je k dispozici pouze pro tyto neurální hlasy: en-US-GuyNeural
, en-US-DavisNeural
a en-US-JaneNeural
.
U slov, která mají nízkou výšku a krátkou dobu trvání, nemusí být rozteč dostatečně zvýšen, aby bylo možné si všimnout.
Následující tabulka popisuje atributy elementu emphasis
:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
level |
Označuje sílu důrazu, který má být použit:
level Pokud není atribut zadán, výchozí úroveň je moderate . Podrobnosti o jednotlivých atributech najdete v tématu zvýraznění elementu. |
Volitelné |
Příklady důrazu
Informace o podporovaných hodnotách pro atributy elementu emphasis
naleznete v tématu Úprava zdůraznění.
Tento fragment kódu SSML ukazuje, jak můžete pomocí elementu emphasis
přidat střední úroveň zdůraznění slova "meetings".
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AndrewMultilingualNeural">
I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
</voice>
</speak>
Přidání nahraného zvuku
Prvek audio
je nepovinný. Můžete ho použít k vložení předem zaznamenaného zvuku do dokumentu SSML. Tělo elementu audio
může obsahovat prostý text nebo mluvený kód SSML, pokud zvukový soubor není k dispozici nebo nelze přehrát. Prvek audio
může obsahovat také text a následující prvky: audio
, break
, p
, s
, phoneme
, , prosody
, , say-as
, a sub
.
Veškerý zvuk, který je součástí dokumentu SSML, musí splňovat tyto požadavky:
- Zvukový soubor musí být platný *.mp3, *.wav, *.opus, *.ogg, *.flac nebo *.wma soubory.
- Celková doba všech textových a zvukových souborů v jedné odpovědi nesmí překročit 600 sekund.
- Zvuk nesmí obsahovat žádné citlivé informace specifické pro zákazníky ani jiné citlivé informace.
Poznámka:
Rozhraní audio
API Long Audio nepodporuje prvek. Pro dlouhý text na řeč použijte místo toho rozhraní API pro dávkovou syntézu.
Následující tabulka popisuje použití audio
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
src |
Umístění identifikátoru URI zvukového souboru. Zvuk musí být hostovaný na koncovém bodu HTTPS přístupném z internetu. Vyžaduje se HTTPS. Doména, která soubor hostuje, musí obsahovat platný důvěryhodný certifikát TLS/SSL. Pokud chcete minimalizovat latenci, měli byste zvukový soubor umístit do služby Blob Storage ve stejné oblasti Azure jako koncový bod pro převod textu na řeč. | Požaduje se |
Příklady zvuku
Informace o podporovaných hodnotách pro atributy elementu audio
naleznete v tématu Přidání nahraného zvuku.
Tento fragment kódu SSML ukazuje, jak pomocí src
atributu vložit zvuk ze dvou .wav souborů.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<p>
<audio src="https://contoso.com/opinionprompt.wav"/>
Thanks for offering your opinion. Please begin speaking after the beep.
<audio src="https://contoso.com/beep.wav">
Could not play the beep, please voice your opinion now.
</audio>
</p>
</voice>
</speak>
Úprava doby trvání zvuku
Pomocí elementu mstts:audioduration
nastavte dobu trvání výstupního zvuku. Tento prvek slouží k synchronizaci časování dokončení zvukového výstupu. Doba trvání zvuku se dá snížit nebo zvýšit mezi 0.5
2
časy rychlosti původního zvuku. Původní zvuk je zvuk bez jakéhokoli jiného nastavení rychlosti. Míra mluvení se zpomalí nebo se odpovídajícím způsobem zpomalí na základě nastavené hodnoty.
Nastavení doby trvání zvuku platí pro veškerý vstupní text v rámci jeho ohraničujícího voice
prvku. Pokud chcete nastavení doby trvání zvuku resetovat nebo změnit znovu, musíte použít nový voice
prvek se stejným hlasem nebo jiným hlasem.
Následující tabulka popisuje použití mstts:audioduration
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
value |
Požadovaná doba trvání výstupního zvuku v sekundách, například 2s v milisekundách, například 2000ms .Maximální hodnota pro dobu trvání výstupního zvuku je 300 sekund. Tato hodnota by měla být v rozmezí 0.5 od 2 času původního zvuku bez jakéhokoli jiného nastavení rychlosti. Pokud je například požadovaná doba trvání zvuku 30s , musí být původní zvuk v rozmezí 15 až 60 sekund. Pokud nastavíte hodnotu mimo tyto hranice, doba trvání se nastaví podle odpovídajícího minimálního nebo maximálního násobku. Pro výstupní zvuk delší než 300 sekund nejprve vygenerujte původní zvuk bez jakéhokoli jiného nastavení rychlosti a pak vypočítejte rychlost, která se upraví pomocí prosody rychlosti, abyste dosáhli požadované doby trvání. |
Požaduje se |
Příklady doby trvání zvuku mstts
Informace o podporovaných hodnotách pro atributy elementu mstts:audioduration
naleznete v tématu Úprava doby trvání zvuku.
V tomto příkladu je původní zvuk přibližně 15 sekund. Prvek mstts:audioduration
se používá k nastavení doby trvání zvuku na 20 sekund nebo 20s
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>
Přidání zvuku na pozadí
Tento prvek můžete použít k přidání zvuku mstts:backgroundaudio
na pozadí do dokumentů SSML nebo ke kombinaci zvukového souboru s textem na řeč. S mstts:backgroundaudio
, můžete smyčce zvukový soubor na pozadí, zesvětlit na začátku textu na řeč a zesvětlit na konci textu na řeč.
Pokud je poskytnutý zvuk na pozadí kratší než text na řeč nebo zeslabení, smyčka se smyčí. Pokud je delší než text na řeč, zastaví se, až se dokončí zeslabení.
Pro každý dokument SSML je povolený jenom jeden zvukový soubor na pozadí. Značky uvnitř elementu voice
můžete intersperse audio
přidat další zvuk do dokumentu SSML.
Poznámka:
Prvek mstts:backgroundaudio
by měl být vložen před všechny voice
prvky. Pokud je zadáno, musí to být první podřízený prvek speak
.
Rozhraní mstts:backgroundaudio
API Long Audio nepodporuje prvek. U dlouhého textu na řeč použijte místo toho rozhraní API pro dávkovou syntézu (Preview).
Následující tabulka popisuje použití mstts:backgroundaudio
atributů elementu:
Atribut | Popis | Požadované nebo volitelné |
---|---|---|
src |
Umístění identifikátoru URI zvukového souboru na pozadí. | Požaduje se |
volume |
Hlasitost zvukového souboru na pozadí. Akceptované hodnoty: 0 pro 100 inkluzivní. Výchozí hodnota je 1 . |
Volitelné |
fadein |
Doba trvání zvuku pozadí fade-in jako milisekundy. Výchozí hodnota je 0 , což je ekvivalentem prolnutí. Akceptované hodnoty: 0 pro 10000 inkluzivní. |
Volitelné |
fadeout |
Doba trvání zvuku na pozadí vyblednutí v milisekundách. Výchozí hodnota je 0 , což je ekvivalentem žádného zesvětlování. Akceptované hodnoty: 0 pro 10000 inkluzivní. |
Volitelné |
Příklady mstss backgroundaudio
Informace o podporovaných hodnotách pro atributy elementu mstts:backgroundaudi
naleznete v tématu Přidání zvuku na pozadí.
<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
<mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
<voice name="en-US-AvaMultilingualNeural">
The text provided in this document will be spoken over the background audio.
</voice>
</speak>