Použití osobního hlasu v aplikaci
Pomocí ID profilu mluvčího pro váš osobní hlas můžete syntetizovat řeč v libovolném z 91 jazyků podporovaných ve více než 100 národních prostředích. Značka národního prostředí není povinná. Osobní hlas používá automatické rozpoznávání jazyka na úrovni věty.
Integrace osobního hlasu do aplikace
K používání osobního hlasu ve vaší aplikaci musíte použít jazyk SSML (Speech Synthesis Markup Language). SSML je jazyk založený na kódu XML, který poskytuje standardní způsob, jak označit text pro generování syntetické řeči. Značky SSML slouží k řízení výslovnosti, hlasitosti, sklonu, rychlosti a dalších atributů výstupu syntézy řeči.
Vlastnost
speakerProfileId
V SSML slouží k zadání ID profilu mluvčího pro osobní hlas.Název hlasu
name
je zadán ve vlastnosti VSML. Pro osobní hlas musí být hlasový název jedním z podporovaných hlasových názvů základního modelu. Pokud chcete získat seznam podporovaných hlasových názvů základních modelů, použijte BaseModels_List operaci vlastního hlasového rozhraní API.Poznámka:
Hlasová jména označená
Latest
jako , napříkladDragonLatestNeural
neboPhoenixLatestNeural
, se budou aktualizovat čas od času; jeho výkon se může lišit s aktualizacemi pro probíhající vylepšení. Pokud chcete použít pevnou verzi, vyberte ji označenou číslem verze, napříkladPhoenixV2Neural
.DragonLatestNeural
je základní model s vynikající podobností klonování hlasu v porovnání sPhoenixLatestNeural
.PhoenixLatestNeural
je základní model s přesnější výslovností a nižší latencí nežDragonLatestNeural
.Pro osobní hlas můžete pomocí
<lang xml:lang>
prvku upravit jazyk mluvení. Je to stejné jako s vícejazyčnými hlasy. Podívejte se, jak používat element jazyka k mluvení v různých jazycích.
Tady je příklad SSML v žádosti o převod textu na řeč s hlasovým jménem a ID profilu mluvčího. Ukázka také ukazuje, jak přepnout jazyky z en-US
zh-HK
používání elementu <lang xml:lang>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
SSML můžete použít prostřednictvím sady Speech SDK nebo rozhraní REST API.
- Syntéza řeči v reálném čase: Převod textu na řeč pomocí sady Speech SDK nebo rozhraní REST API
- Pokud používáte sadu Speech SDK, nenastavujte ID koncového bodu stejně jako představovací hlas.
- Pokud používáte rozhraní REST API, použijte předem připravený koncový bod neurálních hlasů.
Podporované a nepodporované prvky SSML pro osobní hlas
Podrobné informace o podporovaných a nepodporovaných prvcích SSML pro modely Phoenix a Dragon najdete v následující tabulce. Pokyny k použití elementů SSML najdete ve struktuře a událostech dokumentu SSML.
Element (Prvek) | Popis | Podporováno v Phoenixu | Podporováno v Dragonu |
---|---|---|---|
<voice> |
Určuje hlas a volitelné efekty (eq_car a eq_telecomhp8k ). |
Ano | Yes |
<mstts:express-as> |
Určuje styly a role mluvení. | No | Ne |
<mstts:ttsembedding> |
Určuje speakerProfileId vlastnost pro osobní hlas. |
Ano | Yes |
<lang xml:lang> |
Určuje jazyk mluvení. | Ano | Yes |
<prosody> |
Upraví rozteč, obrys, rozsah, rychlost a objem. | ||
pitch |
Určuje směrný plán pro text. | No | Ne |
contour |
Představuje změny v rozteč. | No | Ne |
range |
Představuje rozsah rozteče textu. | No | Ne |
rate |
Označuje míru mluvení textu. | Ano | Yes |
volume |
Označuje úroveň hlasitosti hlasového hlasu. | No | Ne |
<emphasis> |
Přidá nebo odebere stres na úrovni slova pro text. | No | Ne |
<audio> |
Vloží předem zaznamenaný zvuk do dokumentu SSML. | Yes | No |
<mstts:audioduration> |
Určuje dobu trvání výstupního zvuku. | No | Ne |
<mstts:backgroundaudio> |
Přidá do dokumentů SSML zvuk na pozadí nebo zkombinuje zvukový soubor s textem na řeč. | Yes | No |
<phoneme> |
Určuje fonetickou výslovnost v dokumentech SSML. | ||
ipa |
Jedna z fonetických abeced. | Yes | No |
sapi |
Jedna z fonetických abeced. | No | Ne |
ups |
Jedna z fonetických abeced. | Yes | No |
x-sampa |
Jedna z fonetických abeced. | Yes | No |
<lexicon> |
Definuje, jak se v SSML čte více entit. | Ano | Ano (pouze alias podpory) |
<say-as> |
Označuje typ obsahu, například číslo nebo datum, textu elementu. | Ano | Yes |
<sub> |
Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu. | Ano | Yes |
<math> |
Použije MathML jako vstupní text k správnému vyslovování matematických notací ve výstupním zvuku. | Yes | No |
<bookmark> |
Získá posun každé značky ve zvukovém streamu. | Yes | No |
<break> |
Přepíše výchozí chování konců nebo pozastavení mezi slovy. | Ano | Yes |
<mstts:silence> |
Vloží pauzu před textem nebo za text nebo mezi dvěma sousedními větami. | Yes | No |
<mstts:viseme> |
Definuje pozici tváře a úst, když člověk mluví. | Yes | No |
<p> |
Označuje odstavce v dokumentech SSML. | Ano | Yes |
<s> |
Označuje věty v dokumentech SSML. | Ano | Yes |
Podporované a nepodporované funkce sady SDK pro osobní hlas
Následující tabulka popisuje, které funkce sady SDK jsou podporovány pro modely Phoenix a Dragon. Podrobnosti o využití těchto funkcí sady SDK ve vašich aplikacích najdete v tématu Přihlášení k odběru syntetizátoru událostí.
Funkce sady SDK | Popis | Podporováno v Phoenixu | Podporováno v Dragonu |
---|---|---|---|
Hranice slova | Signály, že během syntézy byla přijata hranice slova, což poskytuje přesné časování slov během procesu syntézy řeči. | Yes | No |
Události Viseme | Poskytuje informace o visemu (rty, jawa a pohyb jazyka) během syntézy, což umožňuje vizuální synchronizaci. | Yes | No |