Použití osobního hlasu v aplikaci

Pomocí ID profilu mluvčího pro váš osobní hlas můžete syntetizovat řeč v libovolném z 91 jazyků podporovaných ve více než 100 národních prostředích. Značka národního prostředí není povinná. Osobní hlas používá automatické rozpoznávání jazyka na úrovni věty.

Integrace osobního hlasu do aplikace

K používání osobního hlasu ve vaší aplikaci musíte použít jazyk SSML (Speech Synthesis Markup Language). SSML je jazyk založený na kódu XML, který poskytuje standardní způsob, jak označit text pro generování syntetické řeči. Značky SSML slouží k řízení výslovnosti, hlasitosti, sklonu, rychlosti a dalších atributů výstupu syntézy řeči.

  • Vlastnost speakerProfileId V SSML slouží k zadání ID profilu mluvčího pro osobní hlas.

  • Název hlasu name je zadán ve vlastnosti VSML. Pro osobní hlas musí být hlasový název jedním z podporovaných hlasových názvů základního modelu. Pokud chcete získat seznam podporovaných hlasových názvů základních modelů, použijte BaseModels_List operaci vlastního hlasového rozhraní API.

    Poznámka:

    Hlasová jména označená Latestjako , například DragonLatestNeural nebo PhoenixLatestNeural, se budou aktualizovat čas od času; jeho výkon se může lišit s aktualizacemi pro probíhající vylepšení. Pokud chcete použít pevnou verzi, vyberte ji označenou číslem verze, například PhoenixV2Neural.

  • DragonLatestNeural je základní model s vynikající podobností klonování hlasu v porovnání s PhoenixLatestNeural. PhoenixLatestNeural je základní model s přesnější výslovností a nižší latencí než DragonLatestNeural.

  • Pro osobní hlas můžete pomocí <lang xml:lang> prvku upravit jazyk mluvení. Je to stejné jako s vícejazyčnými hlasy. Podívejte se, jak používat element jazyka k mluvení v různých jazycích.

Tady je příklad SSML v žádosti o převod textu na řeč s hlasovým jménem a ID profilu mluvčího. Ukázka také ukazuje, jak přepnout jazyky z en-US zh-HK používání elementu <lang xml:lang> .

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

SSML můžete použít prostřednictvím sady Speech SDK nebo rozhraní REST API.

  • Syntéza řeči v reálném čase: Převod textu na řeč pomocí sady Speech SDK nebo rozhraní REST API
    • Pokud používáte sadu Speech SDK, nenastavujte ID koncového bodu stejně jako představovací hlas.
    • Pokud používáte rozhraní REST API, použijte předem připravený koncový bod neurálních hlasů.

Podporované a nepodporované prvky SSML pro osobní hlas

Podrobné informace o podporovaných a nepodporovaných prvcích SSML pro modely Phoenix a Dragon najdete v následující tabulce. Pokyny k použití elementů SSML najdete ve struktuře a událostech dokumentu SSML.

Element (Prvek) Popis Podporováno v Phoenixu Podporováno v Dragonu
<voice> Určuje hlas a volitelné efekty (eq_car a eq_telecomhp8k). Ano Yes
<mstts:express-as> Určuje styly a role mluvení. No Ne
<mstts:ttsembedding> Určuje speakerProfileId vlastnost pro osobní hlas. Ano Yes
<lang xml:lang> Určuje jazyk mluvení. Ano Yes
<prosody> Upraví rozteč, obrys, rozsah, rychlost a objem.
   pitch Určuje směrný plán pro text. No Ne
   contour Představuje změny v rozteč. No Ne
   range Představuje rozsah rozteče textu. No Ne
   rate Označuje míru mluvení textu. Ano Yes
   volume Označuje úroveň hlasitosti hlasového hlasu. No Ne
<emphasis> Přidá nebo odebere stres na úrovni slova pro text. No Ne
<audio> Vloží předem zaznamenaný zvuk do dokumentu SSML. Yes No
<mstts:audioduration> Určuje dobu trvání výstupního zvuku. No Ne
<mstts:backgroundaudio> Přidá do dokumentů SSML zvuk na pozadí nebo zkombinuje zvukový soubor s textem na řeč. Yes No
<phoneme> Určuje fonetickou výslovnost v dokumentech SSML.
   ipa Jedna z fonetických abeced. Yes No
   sapi Jedna z fonetických abeced. No Ne
   ups Jedna z fonetických abeced. Yes No
   x-sampa Jedna z fonetických abeced. Yes No
<lexicon> Definuje, jak se v SSML čte více entit. Ano Ano (pouze alias podpory)
<say-as> Označuje typ obsahu, například číslo nebo datum, textu elementu. Ano Yes
<sub> Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu. Ano Yes
<math> Použije MathML jako vstupní text k správnému vyslovování matematických notací ve výstupním zvuku. Yes No
<bookmark> Získá posun každé značky ve zvukovém streamu. Yes No
<break> Přepíše výchozí chování konců nebo pozastavení mezi slovy. Ano Yes
<mstts:silence> Vloží pauzu před textem nebo za text nebo mezi dvěma sousedními větami. Yes No
<mstts:viseme> Definuje pozici tváře a úst, když člověk mluví. Yes No
<p> Označuje odstavce v dokumentech SSML. Ano Yes
<s> Označuje věty v dokumentech SSML. Ano Yes

Podporované a nepodporované funkce sady SDK pro osobní hlas

Následující tabulka popisuje, které funkce sady SDK jsou podporovány pro modely Phoenix a Dragon. Podrobnosti o využití těchto funkcí sady SDK ve vašich aplikacích najdete v tématu Přihlášení k odběru syntetizátoru událostí.

Funkce sady SDK Popis Podporováno v Phoenixu Podporováno v Dragonu
Hranice slova Signály, že během syntézy byla přijata hranice slova, což poskytuje přesné časování slov během procesu syntézy řeči. Yes No
Události Viseme Poskytuje informace o visemu (rty, jawa a pohyb jazyka) během syntézy, což umožňuje vizuální synchronizaci. Yes No

Referenční dokumentace

Další kroky

  • Další informace o vlastním neurálním hlasu najdete v přehledu.
  • Další informace o sadě Speech Studio najdete v přehledu.