Použití osobního hlasu v aplikaci

Článek
09/26/2024

Pomocí ID profilu mluvčího pro váš osobní hlas můžete syntetizovat řeč v libovolném z 91 jazyků podporovaných ve více než 100 národních prostředích. Značka národního prostředí není povinná. Osobní hlas používá automatické rozpoznávání jazyka na úrovni věty.

Integrace osobního hlasu do aplikace

K používání osobního hlasu ve vaší aplikaci musíte použít jazyk SSML (Speech Synthesis Markup Language). SSML je jazyk založený na kódu XML, který poskytuje standardní způsob, jak označit text pro generování syntetické řeči. Značky SSML slouží k řízení výslovnosti, hlasitosti, sklonu, rychlosti a dalších atributů výstupu syntézy řeči.

Vlastnost speakerProfileId V SSML slouží k zadání ID profilu mluvčího pro osobní hlas.
Název hlasu name je zadán ve vlastnosti VSML. Pro osobní hlas musí být hlasový název jedním z podporovaných hlasových názvů základního modelu. Pokud chcete získat seznam podporovaných hlasových názvů základních modelů, použijte BaseModels_List operaci vlastního hlasového rozhraní API.

Poznámka:

Hlasová jména označená Latestjako , například DragonLatestNeural nebo PhoenixLatestNeural, se budou aktualizovat čas od času; jeho výkon se může lišit s aktualizacemi pro probíhající vylepšení. Pokud chcete použít pevnou verzi, vyberte ji označenou číslem verze, například PhoenixV2Neural.
DragonLatestNeural je základní model s vynikající podobností klonování hlasu v porovnání s PhoenixLatestNeural. PhoenixLatestNeural je základní model s přesnější výslovností a nižší latencí než DragonLatestNeural.
Pro osobní hlas můžete pomocí <lang xml:lang> prvku upravit jazyk mluvení. Je to stejné jako s vícejazyčnými hlasy. Podívejte se, jak používat element jazyka k mluvení v různých jazycích.

Tady je příklad SSML v žádosti o převod textu na řeč s hlasovým jménem a ID profilu mluvčího. Ukázka také ukazuje, jak přepnout jazyky z en-US zh-HK používání elementu <lang xml:lang> .

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

SSML můžete použít prostřednictvím sady Speech SDK nebo rozhraní REST API.

Syntéza řeči v reálném čase: Převod textu na řeč pomocí sady Speech SDK nebo rozhraní REST API
- Pokud používáte sadu Speech SDK, nenastavujte ID koncového bodu stejně jako představovací hlas.
- Pokud používáte rozhraní REST API, použijte předem připravený koncový bod neurálních hlasů.

Podporované a nepodporované prvky SSML pro osobní hlas

Podrobné informace o podporovaných a nepodporovaných prvcích SSML pro modely Phoenix a Dragon najdete v následující tabulce. Pokyny k použití elementů SSML najdete ve struktuře a událostech dokumentu SSML.

Element (Prvek)	Popis	Podporováno v Phoenixu	Podporováno v Dragonu
`<voice>`	Určuje hlas a volitelné efekty (`eq_car` a `eq_telecomhp8k`).	Ano	Yes
`<mstts:express-as>`	Určuje styly a role mluvení.	No	Ne
`<mstts:ttsembedding>`	Určuje `speakerProfileId` vlastnost pro osobní hlas.	Ano	Yes
`<lang xml:lang>`	Určuje jazyk mluvení.	Ano	Yes
`<prosody>`	Upraví rozteč, obrys, rozsah, rychlost a objem.
`pitch`	Určuje směrný plán pro text.	No	Ne
`contour`	Představuje změny v rozteč.	No	Ne
`range`	Představuje rozsah rozteče textu.	No	Ne
`rate`	Označuje míru mluvení textu.	Ano	Yes
`volume`	Označuje úroveň hlasitosti hlasového hlasu.	No	Ne
`<emphasis>`	Přidá nebo odebere stres na úrovni slova pro text.	No	Ne
`<audio>`	Vloží předem zaznamenaný zvuk do dokumentu SSML.	Yes	No
`<mstts:audioduration>`	Určuje dobu trvání výstupního zvuku.	No	Ne
`<mstts:backgroundaudio>`	Přidá do dokumentů SSML zvuk na pozadí nebo zkombinuje zvukový soubor s textem na řeč.	Yes	No
`<phoneme>`	Určuje fonetickou výslovnost v dokumentech SSML.
`ipa`	Jedna z fonetických abeced.	Yes	No
`sapi`	Jedna z fonetických abeced.	No	Ne
`ups`	Jedna z fonetických abeced.	Yes	No
`x-sampa`	Jedna z fonetických abeced.	Yes	No
`<lexicon>`	Definuje, jak se v SSML čte více entit.	Ano	Ano (pouze alias podpory)
`<say-as>`	Označuje typ obsahu, například číslo nebo datum, textu elementu.	Ano	Yes
`<sub>`	Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu.	Ano	Yes
`<math>`	Použije MathML jako vstupní text k správnému vyslovování matematických notací ve výstupním zvuku.	Yes	No
`<bookmark>`	Získá posun každé značky ve zvukovém streamu.	Yes	No
`<break>`	Přepíše výchozí chování konců nebo pozastavení mezi slovy.	Ano	Yes
`<mstts:silence>`	Vloží pauzu před textem nebo za text nebo mezi dvěma sousedními větami.	Yes	No
`<mstts:viseme>`	Definuje pozici tváře a úst, když člověk mluví.	Yes	No
`<p>`	Označuje odstavce v dokumentech SSML.	Ano	Yes
`<s>`	Označuje věty v dokumentech SSML.	Ano	Yes

Podporované a nepodporované funkce sady SDK pro osobní hlas

Následující tabulka popisuje, které funkce sady SDK jsou podporovány pro modely Phoenix a Dragon. Podrobnosti o využití těchto funkcí sady SDK ve vašich aplikacích najdete v tématu Přihlášení k odběru syntetizátoru událostí.

Funkce sady SDK	Popis	Podporováno v Phoenixu	Podporováno v Dragonu
Hranice slova	Signály, že během syntézy byla přijata hranice slova, což poskytuje přesné časování slov během procesu syntézy řeči.	Yes	No
Události Viseme	Poskytuje informace o visemu (rty, jawa a pohyb jazyka) během syntézy, což umožňuje vizuální synchronizaci.	Yes	No

Referenční dokumentace

Referenční dokumentace k rozhraní REST API pro vlastní hlas

Další kroky

Další informace o vlastním neurálním hlasu najdete v přehledu.
Další informace o sadě Speech Studio najdete v přehledu.

Sdílet prostřednictvím