Přizpůsobení hlasu a zvuku pomocí SSML

Pomocí jazyka SSML (Speech Synthesis Markup Language) můžete zadat text pro hlasový hlas, jazyk, název, styl a roli pro výstup řeči. V jednom dokumentu SSML můžete také použít více hlasů a upravit důraz, rychlost mluvení, výšku a hlasitost. Kromě toho SSML nabízí možnost vkládat předem zaznamenaný zvuk, například zvukový efekt nebo hudební poznámku.

V článku se dozvíte, jak pomocí prvků SSML určit hlas a zvuk. Další informace o syntaxi SSML najdete v tématu Struktura a události dokumentu SSML.

Použití hlasových prvků

Alespoň jeden voice prvek musí být zadán v rámci každého SSML speak elementu. Tento prvek určuje hlas, který se používá pro převod textu na řeč.

Do jednoho dokumentu SSML můžete zahrnout více voice prvků. Každý voice prvek může zadat jiný hlas. Stejný hlas můžete použít i několikrát s různými nastaveními, například když změníte dobu ticha mezi větami.

Následující tabulka popisuje použití voice atributů elementu:

Atribut Popis Požadované nebo volitelné
name Hlas používaný pro převod textu na výstup řeči. Úplný seznam podporovaných předem připravených hlasů najdete v tématu Podpora jazyků. Požaduje se
effect Procesor zvukového efektu, který se používá k optimalizaci kvality syntetizovaného výstupu řeči pro konkrétní scénáře na zařízeních.

U některých scénářů v produkčních prostředích může být sluchové prostředí snížené kvůli zkreslení přehrávání na určitých zařízeních. Syntetizovaná řeč z reproduktoru auta může například znít nudně a muffed z důvodu environmentálních faktorů, jako je odezva mluvčího, ozvěna místnosti a šum na pozadí. Cestující možná bude muset zvýšit hlasitost, aby slyšeli jasněji. Aby se v takovém scénáři zabránilo ručním operacím, může procesor zvukového efektu usnadnit zvuk kompenzací zkreslení přehrávání.

Podporovány jsou následující hodnoty:
  • eq_car – Optimalizujte auditorské prostředí při poskytování vysoce věrné řeči ve vozidlech, autobusech a dalších uzavřených automobilech.
  • eq_telecomhp8k – Optimalizujte auditorské prostředí pro zúženou řeč v telekomunikačních nebo telefonních scénářích. Měli byste použít vzorkovací frekvenci 8 kHz. Pokud vzorkovací frekvence není 8 kHz, není kvalita zvuku výstupní řeči optimalizovaná.

Pokud hodnota chybí nebo je neplatná, tento atribut se ignoruje a nepoužije se žádný efekt.
Volitelné

Příklady hlasových hovorů

Informace o podporovaných hodnotách pro atributy elementu voice naleznete v tématu Použití hlasových prvků.

Příklad s jedním hlasem

Tento příklad používá en-US-AvaMultilingualNeural hlas.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Příklad více hlasů

V rámci elementu speak můžete zadat více hlasů pro výstup převodu textu na řeč. Tyto hlasy můžou být v různých jazycích. U každého hlasu musí být text zalomený do elementu voice .

Tento příklad se liší mezi en-US-AvaMultilingualNeural hlasy a en-US-AndrewMultilingualNeural hlasy. Neurální vícejazyčné hlasy mohou mluvit různými jazyky na základě vstupního textu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Příklad vlastního neurálního hlasu

Pokud chcete použít vlastní neurální hlas, zadejte název modelu jako název hlasu v SSML.

Tento příklad používá vlastní hlas s názvem my-custom-voice.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Příklad zvukového efektu

Tento atribut použijete effect k optimalizaci auditorské zkušenosti pro scénáře, jako jsou auta a telekomunikační technologie. Následující příklad SSML používá effect atribut s konfigurací ve scénářích automobilů.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Použití stylů a rolí pro mluvení

Ve výchozím nastavení mají neurální hlasy neutrální styl mluvení. Styl mluvení, stupeň stylu a roli můžete upravit na úrovni věty.

Poznámka:

Služba Speech podporuje styly, stupeň stylu a role pro podmnožinu neurálních hlasů, jak je popsáno v dokumentaci k hlasovým stylům a rolím . Pokud chcete určit podporované styly a role pro každý hlas, můžete také použít rozhraní API pro seznam hlasů a webovou aplikaci pro vytváření zvukového obsahu.

Následující tabulka popisuje použití mstts:express-as atributů elementu:

Atribut Popis Požadované nebo volitelné
style Styl mluvení specifický pro hlas. Můžete vyjádřit emoce, jako je veselost, empatie a klid. Hlas můžete také optimalizovat pro různé scénáře, jako je zákaznický servis, newscast a hlasový asistent. Pokud hodnota stylu chybí nebo je neplatná, celý mstts:express-as prvek se ignoruje a služba používá výchozí neutrální řeč. Vlastní styly neurálních hlasů najdete v příkladu vlastního stylu neurálního hlasu. Požaduje se
styledegree Intenzita mluvného stylu. Můžete určit silnější nebo měkčí styl, aby byl řeč výraznější nebo subdutnější. Rozsah přijatých hodnot je: 0.01 pro 2 inkluzivní. Výchozí hodnota je 1, což znamená intenzitu předdefinovaného stylu. Minimální jednotka je 0.01, což vede k mírnému sklonu pro cílový styl. Hodnota 2 výsledků při zdvojnásobení výchozí intenzity stylu. Pokud ve vašem hlasu chybí stupeň stylu nebo ho váš hlas nepodporuje, bude tento atribut ignorován. Volitelné
role Mluvená role. Hlas může napodobovat jiný věk a pohlaví, ale jméno hlasu se nezmění. Například mužský hlas může zvýšit tón a změnit intonaci tak, aby napodobuje ženský hlas, ale jméno hlasu se nezmění. Pokud role chybí nebo není pro váš hlas podporovaná, bude tento atribut ignorován. Volitelné

Následující tabulka popisuje každý podporovaný style atribut:

Styl Popis
style="advertisement_upbeat" Vyjadřuje nadšený a vysoce energetický tón pro podporu produktu nebo služby.
style="affectionate" Vyjadřuje teplý a milý tón s vyšší výškou a hlasitou energií. Mluvčí je ve stavu, kdy přiláká pozornost posluchače. Osobnostmluvčího
style="angry" Vyjadřuje rozzlobený a naštvaný tón.
style="assistant" Vyjadřuje teplý a uvolněný tón digitálních asistentů.
style="calm" Vyjadřuje chladný, shromážděný a složený postoj při mluvení. Tóny, tóny a prosody jsou v porovnání s jinými typy řeči jednotnější.
style="chat" Vyjadřuje neformální a uvolněný tón.
style="cheerful" Vyjadřuje pozitivní a šťastný tón.
style="customerservice" Vyjadřuje přátelský a užitečný tón pro zákaznickou podporu.
style="depressed" Vyjadřuje melancholic a despondentní tón s nižším sklonem a energií.
style="disgruntled" Vyjadřuje pohrdání a stěžuje si na tón. Řeč této emoce zobrazuje nelibost a opovržení.
style="documentary-narration" Předčítá dokumenty v uvolněném, zajímavém a informativním stylu vhodném pro dokumenty, odborné komentáře a podobný obsah.
style="embarrassed" Vyjadřuje nejistý a hesitantní tón, když se mluvčí cítí nepříjemně.
style="empathetic" Vyjadřuje smysl pro péči a porozumění.
style="envious" Vyjadřuje tón obdivu, když si přejete něco, co má někdo jiný.
style="excited" Vyjadřuje upbeat a doufáme, že tón. Zní to, že se děje něco skvělého a mluvčí o tom má radost.
style="fearful" Vyjadřuje vyděšený a nervózní tón s vyšší výškou, vyšší hlasovou energií a rychlejší rychlostí. Mluvčí je ve stavu napětí a unease.
style="friendly" Vyjadřuje příjemný, pozvaný a teplý tón. Zní to upřímně a péče.
style="gentle" Vyjadřuje mírný, zdvořilý a příjemný tón s nižším sklonem a hlasitou energií.
style="hopeful" Vyjadřuje teplou a roční tón. Zní to jako něco dobrého, co se stane mluvčímu.
style="lyrical" Vyjadřuje emoce melodickým a sentimentálním způsobem.
style="narration-professional" Vyjadřuje profesionální, objektivní tón pro čtení obsahu.
style="narration-relaxed" Vyjadřuje relaxační a melodické tóny pro čtení obsahu.
style="newscast" Vyjadřuje formální a profesionální tón pro předčítání zpráv.
style="newscast-casual" Vyjadřuje všestranný a neformální tón pro obecné doručování zpráv.
style="newscast-formal" Vyjadřuje formální, sebevědomý a autoritativní tón pro doručování zpráv.
style="poetry-reading" Vyjadřuje emocionální a rytmický tón při čtení básně.
style="sad" Vyjadřuje smutku.
style="serious" Vyjadřuje striktní a příkazový tón. Reproduktor často zní tužší a mnohem méně uvolněný s pevným tempem.
style="shouting" Vyjadřuje tón, který zní, jako by byl hlas vzdálený nebo na jiném místě a snažil se jasně slyšet.
style="sports_commentary" Vyjadřuje uvolněný a zájem o tón pro vysílání sportovní události.
style="sports_commentary_excited" Vyjadřuje intenzivní a intenzivní tón pro vysílání zajímavých momentů ve sportovní události.
style="whispering" Vyjadřuje měkký tón, který se snaží udělat tichý a jemný zvuk.
style="terrified" Vyjadřuje vyděšený tón s rychlejším tempem a hlasem zatřesením. Zní to, že mluvčí je v nestabilní a zběsilém stavu.
style="unfriendly" Vyjadřuje chlad a necitlivé tóny.

Následující tabulka obsahuje popis jednotlivých podporovaných role atributů:

Role Popis
role="Girl" Hlas napodobuje dívku.
role="Boy" Hlas napodobuje chlapce.
role="YoungAdultFemale" Hlas napodobuje mladé dospělé ženy.
role="YoungAdultMale" Hlas napodobuje mladého dospělého muže.
role="OlderAdultFemale" Hlas napodobuje starší dospělé ženy.
role="OlderAdultMale" Hlas napodobuje starší dospělého muže.
role="SeniorFemale" Hlas napodobuje seniorku.
role="SeniorMale" Hlas napodobuje staršího muže.

Mstts express-as examples

Informace o podporovaných hodnotách pro atributy elementu mstts:express-as naleznete v tématu Použití stylů a rolí mluvení.

Příklad stylu a stupně

Tento prvek používáte mstts:express-as k vyjádření emocí, jako je veselost, empatie a klid. Hlas můžete také optimalizovat pro různé scénáře, jako je zákaznický servis, newscast a hlasový asistent.

Následující příklad SSML používá <mstts:express-as> prvek se stupněm sad 2stylu .

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Příklad role

Kromě úpravy stylů mluvení a stupně stylu můžete také upravit role parametr tak, aby hlas napodobuje jiný věk a pohlaví. Například mužský hlas může zvýšit tón a změnit intonaci tak, aby napodobuje ženský hlas, ale jméno hlasu se nezmění.

Tento fragment kódu SSML ukazuje, jak role se atribut používá ke změně role pro zh-CN-XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Příklad vlastního neurálního hlasu

Svůj vlastní neurální hlas můžete trénovat tak, aby mluvil s některými přednastavenými styly, jako cheerfulje , sada whispering. Můžete také vytrénovat vlastní neurální hlas tak, aby mluvil ve vlastním stylu podle trénovacích dat. Pokud chcete použít vlastní styl neurálního hlasu v SSML, zadejte název stylu, který jste dříve zadali v sadě Speech Studio.

Tento příklad používá vlastní hlas s názvem my-custom-voice. Vlastní hlas mluví s přednastaveným cheerful stylem a stupněm 2stylu a pak s vlastním stylem s názvem my-custom-style a style stupeň 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

ID profilu mluvčího

Tento prvek slouží mstts:ttsembedding k určení speakerProfileId vlastnosti pro osobní hlas. Osobní hlas je vlastní neurální hlas, který je trénovaný na vašem vlastním hlasu nebo hlasu zákazníka. Další informace najdete v tématu Vytvoření osobního hlasu.

Následující příklad SSML používá <mstts:ttsembedding> element s hlasovým jménem a ID profilu mluvčího.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Úprava jazyků pro mluvení

Ve výchozím nastavení můžou vícejazyčné hlasy automaticky zjistit jazyk vstupního textu a mluvit v jazyce výchozího národního prostředí vstupního textu bez použití SSML. Volitelně můžete pomocí <lang xml:lang> prvku upravit jazyk mluvení pro tyto hlasy a nastavit upřednostňovaný zvýraznění, například en-GB pro britskou angličtinu. Jazyk mluvení můžete upravit na úrovni věty i na úrovni slova. Informace o podporovaných jazycích pro vícejazyčný hlas naleznete v tématu Vícejazyčné hlasy s elementem jazyka pro tabulku zobrazující <lang> definice syntaxe a atributů.

Následující tabulka popisuje použití <lang xml:lang> atributů elementu:

Atribut Popis Požadované nebo volitelné
xml:lang Jazyk, který chcete, aby neurální hlas mluvil. Vyžaduje se k úpravě jazyka mluvení pro neurální hlas. Pokud používáte lang xml:lang, musí být zadané národní prostředí.

Poznámka:

Prvek <lang xml:lang> není kompatibilní s prosody prvky a break prvky. V tomto prvku nemůžete nastavit pozastavení a prosody, jako je rozteč, obrys, rychlost nebo hlasitost.

Nejazyčné hlasy nepodporují <lang xml:lang> prvek záměrně.

Vícejazyčné hlasy s prvkem jazyka

V části vícejazyčné hlasy můžete určit, které jazyky služba Speech podporuje pro každý neurální hlas, jak je znázorněno v následující ukázkové tabulce. Pokud hlas nemluví jazykem vstupního textu, služba Speech nevypíše syntetizovaný zvuk.

Hlasový hovor Automaticky rozpoznané číslo jazyka Automaticky rozpoznaný jazyk (národní prostředí) Všechna národní prostředí Všechny jazyky (národní prostředí) podporované v SSML
en-US-AndrewMultilingualNeural1 (Muž)
en-US-AvaMultilingualNeural1 (Žena)
en-US-BrianMultilingualNeural1 (Muž)
en-US-EmmaMultilingualNeural1 (Žena)
77 Afrikaans (), Albánština (af-ZAsq-AL), Amharština (am-ET), Arabština (ar-EG), Arménská (hy-AM), Ázerbájdžánština (az-AZ), Bahasa Indonéština (), Bangla (id-IDbn-BD), Baskičtina (eu-ES), Bengali (bn-IN), Bosenštinabs-BA (), Bulharština (), Burmština (my-MM), katalánština (ca-ES), čínština (Kantonese),zh-HK čínština (), čínština (zh-CNzh-TW), chorvatština (hr-HR), češtinacs-CZ (), dánština (da-DK), holandštinanl-NL (), angličtina (en-US), estonskoet-EE (), filipínština (bg-BGfil-PH), finština (fi-FI), francouzština ()fr-FR), Galicijština (gl-ES), Gruzieka-GE (), němčina (de-DE), řečtina (el-GR), hebrejština (he-IL), hindština (hi-IN), maďarština (hu-HU), islandština (is-IS), irština (ga-IE), italština (it-IT), japonština (ja-JP), javanština (jv-ID),kn-IN kazaština (kk-KZ), khmerština (km-KH), korejština (ko-KR), Lao (lo-LA), Lotyštinalt-LT (lv-LV), Makedonština (mk-MK), Malajštinams-MY (), Malajština (), Maltština (mt-MTml-IN), Mongolštinamn-MN (), Nepálština (ne-NP), Norština Bokmål (nb-NO), Pashto (ps-AF), perština (), polština (fa-IRpl-PL), portugalština (pt-BR), rumunština (ro-RO), ruština (ru-RU), srbština (sr-RS), sinhala (si-LK), slovenština (sk-SK), slovenština (sl-SI), somali (so-SO), španělština (es-ES), nepoužádština (su-ID), švédštinasw-KE (sv-SE), tamilština (ta-IN), telugu (te-IN), thajština (th-TH), turečtina (tr-TR), ruština (), ruština (), ukrajinština (uk-UA), Urdu (ur-PK), Uzbek (uz-UZ), Vietnamština (vi-VN), Welsh (cy-GB), Zulu (zu-ZA) 91 Afrikánština (Jihoafrická republika) (af-ZA), Albánská (Albánie) (sq-AL), Amharština (Etiopie) (am-ET), arabština (Egypt) (ar-EG), arabština (Saúdská Arábie) (ar-SA), Arménská (Arménie) (hy-AM), Ázerbájdžánština (Ázerbájdžán) (az-AZ), Baskičtina (Baskičtina),eu-ES Bengálština (Indie) (bn-IN), Bosenština (Bosna a Hercegovina) (bs-BA), Bulharština (bg-BGBulharsko), Burmština (Myanmar) (my-MM), katalánština (Španělsko), čínština (ca-ESKantonese, Tradiční) (), čínština (zh-HKmandarínština, zjednodušená),zh-CN čínština (tchaj-wanština mandarínština) ( zh-TW), chorvatština (Chorvatsko),hr-HR čeština (cs-CZčeština), dánština (Dánsko) (da-DK), nizozemština (Belgie) (nl-BE), nizozemština (nl-NLNizozemsko), angličtina (Austrálie) (en-AU), angličtina (Kanada) (en-CA), angličtina (Hongkong) (), angličtina (en-HKIndie) (en-IN), angličtina (Irskoen-IE), angličtina (Spojené království) (en-GB), angličtina (USA) (en-US), estonština (Estonsko),et-EE Filipínština (Filipíny) (fil-PH), finština (Finsko) (fi-FI), francouzština (Belgie) (fr-BE), francouzština (Kanada),fr-CA francouzština (Francie), francouzština (fr-FRŠvýcarsko) (fr-CH), Galicijština (Galicijština) (gl-ES), Gruzie (Gruzie) (ka-GE), němčina (Rakousko) (de-AT), němčina (Německo) (), němčina (de-DEŠvýcarsko) (de-CH), řečtina (Řecko) (el-GRŘecko) ), hebrejština (he-ILIzrael), hindština (hi-INIndie), maďarština (Maďarsko) (hu-HU), islandský (island) (is-IS), indonéština (Indonésie) (id-ID), irská (Irsko) (ga-IE), italština (Itálie) (it-IT), japonština (Japonsko) (), Javánština (ja-JPIndonésie) ( jv-ID), Kannada (Indie) (kn-IN), Kazaština (Kazachstán) (kk-KZ), Khmer (Kambodža) (km-KH), Korejština (Korea) (), Lao (ko-KRLaos) (lo-LA), Lotyština (Lotyšsko) (lv-LV), Litevština (Litva) (lt-LT), Makedonština (Severní Makedonie) (mk-MK), Malajština (Malajsie) (ms-MY), Malajam (Indie) (Indie) (Malta) (), Mongolsko (Mongolsko) (), Nepálština (Nepál) (Norština (Bokmål), Malajál (Indie) (Indie) (ml-INMalta) (Malta) (mt-MT), Mongolština (Mongolsko) (mn-MNNepál) (Norština (ne-NPBokmål), Norsko (nb-NO), Pashto (ps-AFAfghánistán), Perština (Írán) (fa-IR), Polština (Polsko) (pl-PL), portugalština (Brazílie),pt-BR portugalština (pt-PTPortugalsko), rumunština (Rumunsko) (ro-RO), ruština (Rusko) (ru-RU), srbština (cyrilice, Srbsko) (), Sinhala (sr-RSSrí Lanka) (si-LK), Slovenština (Slovensko) (sk-SK), Slovinština (Slovinsko) (sl-SI), Somali (Somalia) (so-SO), Španělština (Mexiko), Španělština (es-MXŠpanělsko) (es-ES), Sundanese (Indonésie) (su-ID), Swahili (Keňa) (sw-KE), Švédština (Švédsko) (sv-SE), Tamilština (Indie) (ta-IN), Telugu (Indie) (), Thajská (te-INThajsko) (th-TH), turečtina (Türkiye) (tr-TR), ukrajinština (Ukrajina) (uk-UA), Urdu (Pákistán) (ur-PK), Uzbek (Pákistán) (uz-UZ), Vietnamština (Vietnam) (vi-VN), Welsh (Spojené království) (cy-GB), Zulu (Jižní Afrika) (zu-ZA)

1 Jedná se o neurální vícejazyčné hlasy ve službě Azure AI Speech. Všechny vícejazyčné hlasy můžou mluvit v jazyce ve výchozím národním prostředí vstupního textu bez použití SSML. Přesto ale můžete pomocí <lang xml:lang> prvku upravit mluvený přízvuk každého jazyka a nastavit upřednostňovaný zvýraznění, jako je britský zvýraznění (en-GB) pro angličtinu. Primární národní prostředí pro každý hlas je označeno předponou v jejím názvu, například hlasem en-US-AndrewMultilingualNeural, jeho primárním národním prostředím je en-US.

Poznámka:

Vícejazyčné hlasy plně nepodporují určité prvky SSML, například break, emphasis, silencea sub.

Příklady jazyka

Informace o podporovaných hodnotách pro atributy elementu lang naleznete v tématu Úprava jazyka mluvení.

Musíte zadat en-US jako výchozí jazyk v rámci elementu speak , zda je jazyk upraven jinde. V tomto příkladu je en-USprimární jazyk pro en-US-AvaMultilingualNeural .

Tento fragment kódu SSML ukazuje, jak použít <lang xml:lang> k mluvení s de-DE neurálním hlasem en-US-AvaMultilingualNeural .

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

V rámci elementu speak můžete zadat více jazyků, včetně en-US pro výstup převodu textu na řeč. U každého upraveného jazyka musí text odpovídat jazyku a musí být zabalený do elementu voice . Tento fragment kódu SSML ukazuje, jak použít <lang xml:lang> ke změně jazyka mluvení na es-MX, en-USa fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Úprava prozódie

Pomocí prvku můžete prosody určit změny ve výstupu řeči na výšku, obrys, rozsah, rychlost a hlasitost textu. Prvek prosody může obsahovat text a následující prvky: audio, break, p, phoneme, prosody, , say-as, , sub, a s.

Vzhledem k tomu, že hodnoty atributu prosodic se můžou v širokém rozsahu lišit, interpretuje rozpoznávání řeči přiřazené hodnoty jako návrh skutečné prosodické hodnoty vybraného hlasu. Omezení textu na řeč nebo nahrazení hodnot, které nejsou podporované. Příklady nepodporovaných hodnot jsou rozteč 1 MHz nebo objem 120.

Následující tabulka popisuje použití prosody atributů elementu:

Atribut Popis Požadované nebo volitelné
contour Obrys znázorňuje změny v rozteč. Tyto změny jsou reprezentovány jako pole cílů v zadaných časových pozicích ve výstupu řeči. Sady párů parametrů definují každý cíl. Příklad:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

První hodnota v každé sadě parametrů určuje umístění změny sklonu v procentech doby trvání textu. Druhá hodnota určuje hodnotu, která má zvýšit nebo snížit výšku pomocí relativní hodnoty nebo hodnoty výčtu pro rozteč (viz pitch). Rozteč obrysu nefunguje u jednoduchých slov a krátkých frází. Doporučujeme upravit obrys rozteče u celých vět nebo dlouhých frází.
Volitelné
pitch Určuje směrný plán pro text. Změny výšky se dají použít na úrovni vět. Změny výšky by měly být ve 0,5 až 1,5krát původní zvuk. Prezentaci můžete vyjádřit takto:
  • Absolutní hodnota: Vyjádřeno jako číslo následované "Hz" (Hertz). Například <prosody pitch="600Hz">some text</prosody>.
  • Relativní hodnota:
    • Jako relativní číslo: Vyjádřeno jako číslo předcházející "+" nebo "-" a za ním "Hz" nebo "st", které určuje velikost změny rozteče. Například: <prosody pitch="+80Hz">some text</prosody> nebo <prosody pitch="-2st">some text</prosody>. "st" označuje jednotku změny středníkem, což je polovina tónu (půl kroku) na standardní diatonové stupnici.
    • Procento: Vyjádřeno jako číslo před "+" (volitelně) nebo "-" a za ním "%" označující relativní změnu. Například: <prosody pitch="50%">some text</prosody> nebo <prosody pitch="-50%">some text</prosody>.
  • Konstantní hodnota:
    • x-low (ekvivalentní 0,55,-45 %)
    • low (ekvivalentní 0,8, -20 %)
    • medium (ekvivalentní 1, výchozí hodnota)
    • high (ekvivalentní 1,2, +20 %)
    • x-high (ekvivalentní 1,45, +45 %)
Volitelné
range Hodnota, která představuje rozsah rozteče textu. Můžete vyjádřit range pomocí stejných absolutních hodnot, relativních hodnot nebo hodnot výčtu použitých k popisu pitch. Volitelné
rate Označuje míru mluvení textu. Mluvení lze použít na úrovni slova nebo věty. Změny rychlosti by měly být v čase 0.5 2 původního zvuku. Můžete vyjádřit rate takto:
  • Relativní hodnota:
    • Jako relativní číslo: Vyjádřeno jako číslo, které funguje jako násobitel výchozí hodnoty. Například hodnota 1 výsledků se nezmění v původní sazbě. Hodnota 0.5 výsledků představuje polovinu původní sazby. Výsledkem je 2 dvakrát původní sazba.
    • Procento: Vyjádřeno jako číslo před "+" (volitelně) nebo "-" a za ním "%" označující relativní změnu. Například: <prosody rate="50%">some text</prosody> nebo <prosody rate="-50%">some text</prosody>.
  • Konstantní hodnota:
    • x-slow (ekvivalentní 0,5, -50 %)
    • slow (ekvivalentní 0,64, -46 %)
    • medium (ekvivalentní 1, výchozí hodnota)
    • fast (ekvivalentní 1,55, +55 %)
    • x-fast (ekvivalentní 2, +100 %)
Volitelné
volume Označuje úroveň hlasitosti hlasového hlasu. Změny hlasitosti lze použít na úrovni věty. Svazek můžete vyjádřit takto:
  • Absolutní hodnota: Vyjádřeno jako číslo v rozsahu 0.0 do 100.0, od nejtiššího po nejhlasitější, například 75. Výchozí hodnota je 100.0.
  • Relativní hodnota:
    • Jako relativní číslo: Vyjádřeno jako číslo před "+" nebo "-", které určuje množství, které má změnit svazek. Příklady jsou +10 nebo -5.5.
    • Procento: Vyjádřeno jako číslo před "+" (volitelně) nebo "-" a za ním "%" označující relativní změnu. Například: <prosody volume="50%">some text</prosody> nebo <prosody volume="+3%">some text</prosody>.
  • Konstantní hodnota:
    • silent (ekvivalentní 0)
    • x-soft (ekvivalentní 0,2)
    • soft (ekvivalentní 0,4)
    • medium (ekvivalentní 0,6)
    • loud (ekvivalentní 0,8)
    • x-loud (ekvivalentní 1, výchozí hodnota)
Volitelné

Příklady prosody

Informace o podporovaných hodnotách pro atributy elementu prosody naleznete v části Adjust prosody.

Příklad změny míry mluvení

Tento fragment kódu SSML ukazuje, jak rate se atribut používá ke změně míry mluvení na 30 % vyšší než výchozí rychlost.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Příklad změny svazku

Tento fragment kódu SSML ukazuje, jak volume se atribut používá ke změně svazku na 20 % větší než výchozí svazek.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Změna příkladu prezentace

Tento fragment kódu SSML ukazuje, jak pitch se atribut používá, aby hlas mluvil ve vysoké rozsadě.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Změna obrysu rozteče – příklad

Tento fragment kódu SSML ukazuje, jak contour se atribut používá ke změně obrysu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Úprava zvýraznění

Volitelný prvek můžete použít emphasis k přidání nebo odebrání napětí na úrovni slova pro text. Tento prvek může obsahovat pouze text a následující prvky: audio, break, emphasis, lang, phoneme, prosody, , subsay-asa voice.

Poznámka:

Ladění na úrovni slov je k dispozici pouze pro tyto neurální hlasy: en-US-GuyNeural, en-US-DavisNeurala en-US-JaneNeural.

U slov, která mají nízkou výšku a krátkou dobu trvání, nemusí být rozteč dostatečně zvýšen, aby bylo možné si všimnout.

Následující tabulka popisuje atributy elementu emphasis :

Atribut Popis Požadované nebo volitelné
level Označuje sílu důrazu, který má být použit:
  • reduced
  • none
  • moderate
  • strong

level Pokud není atribut zadán, výchozí úroveň je moderate. Podrobnosti o jednotlivých atributech najdete v tématu zvýraznění elementu.
Volitelné

Příklady důrazu

Informace o podporovaných hodnotách pro atributy elementu emphasis naleznete v tématu Úprava zdůraznění.

Tento fragment kódu SSML ukazuje, jak můžete pomocí elementu emphasis přidat střední úroveň zdůraznění slova "meetings".

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Přidání nahraného zvuku

Prvek audio je nepovinný. Můžete ho použít k vložení předem zaznamenaného zvuku do dokumentu SSML. Tělo elementu audio může obsahovat prostý text nebo mluvený kód SSML, pokud zvukový soubor není k dispozici nebo nelze přehrát. Prvek audio může obsahovat také text a následující prvky: audio, break, p, s, phoneme, , prosody, , say-as, a sub.

Veškerý zvuk, který je součástí dokumentu SSML, musí splňovat tyto požadavky:

  • Zvukový soubor musí být platný *.mp3, *.wav, *.opus, *.ogg, *.flac nebo *.wma soubory.
  • Celková doba všech textových a zvukových souborů v jedné odpovědi nesmí překročit 600 sekund.
  • Zvuk nesmí obsahovat žádné citlivé informace specifické pro zákazníky ani jiné citlivé informace.

Poznámka:

Rozhraní audio API Long Audio nepodporuje prvek. Pro dlouhý text na řeč použijte místo toho rozhraní API pro dávkovou syntézu.

Následující tabulka popisuje použití audio atributů elementu:

Atribut Popis Požadované nebo volitelné
src Umístění identifikátoru URI zvukového souboru. Zvuk musí být hostovaný na koncovém bodu HTTPS přístupném z internetu. Vyžaduje se HTTPS. Doména, která soubor hostuje, musí obsahovat platný důvěryhodný certifikát TLS/SSL. Pokud chcete minimalizovat latenci, měli byste zvukový soubor umístit do služby Blob Storage ve stejné oblasti Azure jako koncový bod pro převod textu na řeč. Požaduje se

Příklady zvuku

Informace o podporovaných hodnotách pro atributy elementu audio naleznete v tématu Přidání nahraného zvuku.

Tento fragment kódu SSML ukazuje, jak pomocí src atributu vložit zvuk ze dvou .wav souborů.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Úprava doby trvání zvuku

Pomocí elementu mstts:audioduration nastavte dobu trvání výstupního zvuku. Tento prvek slouží k synchronizaci časování dokončení zvukového výstupu. Doba trvání zvuku se dá snížit nebo zvýšit mezi 0.5 2 časy rychlosti původního zvuku. Původní zvuk je zvuk bez jakéhokoli jiného nastavení rychlosti. Míra mluvení se zpomalí nebo se odpovídajícím způsobem zpomalí na základě nastavené hodnoty.

Nastavení doby trvání zvuku platí pro veškerý vstupní text v rámci jeho ohraničujícího voice prvku. Pokud chcete nastavení doby trvání zvuku resetovat nebo změnit znovu, musíte použít nový voice prvek se stejným hlasem nebo jiným hlasem.

Následující tabulka popisuje použití mstts:audioduration atributů elementu:

Atribut Popis Požadované nebo volitelné
value Požadovaná doba trvání výstupního zvuku v sekundách, například 2sv milisekundách, například 2000ms.

Maximální hodnota pro dobu trvání výstupního zvuku je 300 sekund. Tato hodnota by měla být v rozmezí 0.5 od 2 času původního zvuku bez jakéhokoli jiného nastavení rychlosti. Pokud je například požadovaná doba trvání zvuku 30s, musí být původní zvuk v rozmezí 15 až 60 sekund. Pokud nastavíte hodnotu mimo tyto hranice, doba trvání se nastaví podle odpovídajícího minimálního nebo maximálního násobku. Pro výstupní zvuk delší než 300 sekund nejprve vygenerujte původní zvuk bez jakéhokoli jiného nastavení rychlosti a pak vypočítejte rychlost, která se upraví pomocí prosody rychlosti, abyste dosáhli požadované doby trvání.
Požaduje se

Příklady doby trvání zvuku mstts

Informace o podporovaných hodnotách pro atributy elementu mstts:audioduration naleznete v tématu Úprava doby trvání zvuku.

V tomto příkladu je původní zvuk přibližně 15 sekund. Prvek mstts:audioduration se používá k nastavení doby trvání zvuku na 20 sekund nebo 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Přidání zvuku na pozadí

Tento prvek můžete použít k přidání zvuku mstts:backgroundaudio na pozadí do dokumentů SSML nebo ke kombinaci zvukového souboru s textem na řeč. S mstts:backgroundaudio, můžete smyčce zvukový soubor na pozadí, zesvětlit na začátku textu na řeč a zesvětlit na konci textu na řeč.

Pokud je poskytnutý zvuk na pozadí kratší než text na řeč nebo zeslabení, smyčka se smyčí. Pokud je delší než text na řeč, zastaví se, až se dokončí zeslabení.

Pro každý dokument SSML je povolený jenom jeden zvukový soubor na pozadí. Značky uvnitř elementu voice můžete intersperse audio přidat další zvuk do dokumentu SSML.

Poznámka:

Prvek mstts:backgroundaudio by měl být vložen před všechny voice prvky. Pokud je zadáno, musí to být první podřízený prvek speak .

Rozhraní mstts:backgroundaudio API Long Audio nepodporuje prvek. U dlouhého textu na řeč použijte místo toho rozhraní API pro dávkovou syntézu (Preview).

Následující tabulka popisuje použití mstts:backgroundaudio atributů elementu:

Atribut Popis Požadované nebo volitelné
src Umístění identifikátoru URI zvukového souboru na pozadí. Požaduje se
volume Hlasitost zvukového souboru na pozadí. Akceptované hodnoty: 0 pro 100 inkluzivní. Výchozí hodnota je 1. Volitelné
fadein Doba trvání zvuku pozadí fade-in jako milisekundy. Výchozí hodnota je 0, což je ekvivalentem prolnutí. Akceptované hodnoty: 0 pro 10000 inkluzivní. Volitelné
fadeout Doba trvání zvuku na pozadí vyblednutí v milisekundách. Výchozí hodnota je 0, což je ekvivalentem žádného zesvětlování. Akceptované hodnoty: 0 pro 10000 inkluzivní. Volitelné

Příklady mstss backgroundaudio

Informace o podporovaných hodnotách pro atributy elementu mstts:backgroundaudi naleznete v tématu Přidání zvuku na pozadí.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Další kroky