Co je převod textu na řeč?

Článek
10/16/2024

V tomto přehledu se dozvíte o výhodách a možnostech funkce převodu textu na řeč služby Speech, která je součástí služeb Azure AI.

Text na řeč umožňuje vašim aplikacím, nástrojům nebo zařízením převést text na člověka, jako je syntetizovaná řeč. Funkce převodu textu na řeč se také označuje jako syntéza řeči. Používejte člověka jako předem připravené neurální hlasy nebo vytvořte vlastní neurální hlas, který je jedinečný pro váš produkt nebo značku. Úplný seznam podporovaných hlasů, jazyků a národních prostředí najdete v tématu Podpora jazyka a hlasu pro službu Speech.

Základní funkce

Převod textu na řeč zahrnuje následující funkce:

Funkce	Shrnutí	Ukázka
Předem připravený neurální hlas (na stránce s cenami se nazývá Neurální)	Velmi přirozené předpřirozené hlasy. Vytvořte předplatné Azure a prostředek služby Speech a pak použijte sadu Speech SDK nebo přejděte na portál Speech Studio a vyberte předem připravené neurální hlasy, abyste mohli začít. Projděte si podrobnosti o cenách.	Zkontrolujte galerii hlasových hovorů a určete správný hlas pro vaše obchodní potřeby.
Vlastní neurální hlas (na stránce s cenami se nazývá Vlastní neurální)	Snadno použitelné samoobslužné služby pro vytvoření přirozeného hlasu značky s omezeným přístupem k zodpovědnému použití. Vytvořte předplatné Azure a prostředek služby Speech (s úrovní S0) a použijte vlastní hlasovou funkci. Po udělení přístupu přejděte na portál Speech Studio a začněte výběrem možnosti Vlastní hlas . Projděte si podrobnosti o cenách.	Projděte si ukázky hlasu.

Další informace o funkcích řeči v neurálním textu

Text na řeč používá hluboké neurální sítě k tomu, aby hlasy počítačů téměř nerozlišily od nahrávek lidí. Díky jasné artikulaci slov se neurální text na řeč výrazně snižuje únavu při interakci uživatelů se systémy AI.

Vzory stresu a intonace v mluveném jazyce se nazývají prosody. Tradiční textové systémy pro řeč rozdělují prosody do samostatných lingvistických analýz a kroků pro predikce akustických predikcí, které se řídí nezávislými modely. To může mít za následek bzučení, bzučení syntézy hlasu.

Tady jsou další informace o neurálních textech na řečové funkce ve službě Speech a o tom, jak překonat limity tradičních textových systémů na řečové systémy:

Syntéza řeči v reálném čase: Pomocí sady Speech SDK nebo rozhraní REST API můžete převést text na řeč pomocí předem připravených neurálních hlasů nebo vlastních neurálních hlasů.
Asynchronní syntéza dlouhého zvuku: Pomocí rozhraní API dávkové syntézy můžete asynchronně syntetizovat text na řečové soubory delší než 10 minut (například zvukové knihy nebo přednášky). Na rozdíl od syntézy prováděné pomocí sady Speech SDK nebo rozhraní REST API pro převod řeči na text se odpovědi nevrátí v reálném čase. Očekává se, že se požadavky odesílají asynchronně, odpovědi se dotazují a syntetizují zvuk, když je služba zpřístupní.
Předem vytvořené neurální hlasy: Azure AI Speech používá hluboké neurální sítě k překonání limitů tradiční syntézy řeči týkající se stresu a intonace v mluveném jazyce. K prosody predikce a syntéze hlasu dochází současně, což vede k více tekutinám a přirozenému zvuku výstupů. Každý předem připravený neurální hlasový model je k dispozici na 24 kHz a s vysokou věrností 48 kHz. Neurální hlasy můžete použít k:
- Interakce s chatovacími roboty a hlasovými asistenty je přirozenější a poutavější.
- Převeďte digitální texty, jako jsou elektronické knihy, na audioknihy.
- Vylepšete navigační systémy v autě.
Úplný seznam předem připravených neurálních hlasů služby Azure AI Speech najdete v tématu Podpora jazyka a hlasu pro službu Speech.
Vylepšení výstupu textu na řeč pomocí SSML: Jazyk SSML (Speech Synthesis Markup Language) je jazyk pro revize založený na jazyce XML, který se používá k přizpůsobení textu na výstupy řeči. Pomocí SSML můžete upravit výšku, přidat pauzy, zlepšit výslovnost, změnit rychlost mluvení, upravit hlasitost a přiřazovat více hlasů do jednoho dokumentu.

Pomocí SSML můžete definovat vlastní lexikony nebo přepnout na různé styly mluvení. Pomocí vícejazyčných hlasů můžete také upravit jazyky pro mluvení prostřednictvím SSML. Pokud chcete zlepšit hlasový výstup pro váš scénář, přečtěte si téma Zlepšení syntézy pomocí jazyka pro syntézu řeči a syntézy řeči pomocí nástroje Pro vytváření zvukového obsahu.
Visemes: Visemes jsou klíčové pozice v pozorované řeči, včetně pozice rtů, jawy a jazyka při výrobě určitého fomusu. Visemes mají silnou korelaci s hlasy a fonety.

Pomocí událostí viseme v sadě Speech SDK můžete vygenerovat animační data obličeje. Tato data se dají použít k animaci tváří v komunikaci se rty, vzděláváním, zábavou a zákaznickým servisem. Viseme se v současné době podporuje jenom pro en-US neurální hlasy (angličtina v USA).

Poznámka:

Kromě hlasových hovorů Azure AI Speech (jiné než HD) můžete použít také hlasy azure AI Speech s vysokou definicí (HD) a neurální hlasy Azure OpenAI (HD a jiné než HD). Hlasy HD poskytují vyšší kvalitu pro všestrannější scénáře.

Některé hlasy nepodporují všechny značky jazyka SSML (Speech Synthesis Markup Language). To zahrnuje neurální text na hlasy HD řeči, osobní hlasy a vložené hlasy.

V případě hlasových hovorů s vysokou definicí azure AI Speech (HD) se podívejte na podporu SSML.
Pro osobní hlas najdete podporu SSML zde.
U vložených hlasů se podívejte na podporu SSML.

Začínáme

Pokud chcete začít s převodem textu na řeč, podívejte se na rychlý start. Text na řeč je k dispozici prostřednictvím sady Speech SDK, rozhraní REST API a rozhraní příkazového řádku služby Speech.

Tip

Pokud chcete převést text na řeč pomocí přístupu bez kódu, vyzkoušejte nástroj pro vytváření zvukového obsahu v nástroji Speech Studio.

Ukázkový kód

Ukázkový kód pro převod textu na řeč je k dispozici na GitHubu. Tyto ukázky pokrývají převod textu na řeč v nejoblíbenějších programovacích jazycích:

Vlastní neurální hlas

Kromě předem připravených neurálních hlasů můžete vytvářet vlastní neurální hlasy, které jsou jedinečné pro váš produkt nebo značku. Stačí začít několika zvukovými soubory a přidruženými přepisy. Další informace najdete v tématu Začínáme s vlastním neurálním hlasem.

Poznámka k ceně

Fakturovatelné znaky

Když použijete funkci převodu textu na řeč, bude se vám účtovat každý znak převedený na řeč, včetně interpunkce. I když samotný dokument SSML není fakturovatelný, volitelné prvky, které slouží k úpravě způsobu převodu textu na řeč, jako jsou foonely a rozteč, se počítají jako fakturovatelné znaky. Tady je seznam fakturovatelných položek:

Text předaný funkci převodu textu na řeč v textu žádosti SSML
Všechny revize v textovém poli textu požadavku ve formátu SSML s výjimkou <speak> a <voice> značek
Písmena, interpunkce, mezery, tabulátory, revize a všechny prázdné znaky
Každý bod kódu definovaný v kódování Unicode

Podrobné informace najdete v tématu Ceny služby Speech.

Důležité

Každý čínský znak se počítá jako dva znaky pro fakturaci, včetně kanji používaného v japonštině, hanja používané v korejštině nebo hanzi používané v jiných jazycích.

Trénování modelů a čas hostování pro vlastní neurální hlas

Vlastní neurální hlasové trénování a hostování se počítají podle hodin i fakturovaných za sekundu. Informace o cenách fakturační jednotky najdete v tématu Ceny služby Speech.

Čas trénování vlastního neurálního hlasu (CNV) se měří podle "výpočetní hodiny" (jednotka pro měření doby běhu počítače). Při trénování hlasového modelu jsou obvykle spuštěny dva výpočetní úlohy paralelně. Počítané výpočetní hodiny jsou tedy delší než skutečná doba trénování. V průměru trvá trénovat hlas CNV Lite méně než jednu výpočetní hodinu; zatímco u CNV Pro obvykle trénování hlasu v jednom stylu trvá 20 až 40 výpočetních hodin a přibližně 90 výpočetních hodin pro trénování hlasu ve více stylu. Doba trénování CNV se účtuje s limitem 96 výpočetních hodin. V případě, že je hlasový model vytrénovaný za 98 výpočetních hodin, se vám bude účtovat jenom 96 výpočetních hodin.

Vlastní hostování koncových bodů neurálního hlasu (CNV) se měří skutečným časem (hodinou). Čas hostování (hodiny) pro každý koncový bod se počítá každý den v 00:00 UTC za předchozích 24 hodin. Pokud je například koncový bod aktivní po dobu 24 hodin dne 1, účtuje se 24 hodin v 00:00 UTC druhý den. Pokud je koncový bod nově vytvořený nebo pozastavený během dne, účtuje se jeho kumulovaný spuštěný čas do 00:00 UTC druhý den. Pokud koncový bod není aktuálně hostovaný, neúčtuje se. Kromě denního výpočtu v 00:00 UTC se fakturace aktivuje také okamžitě při odstranění nebo pozastavení koncového bodu. Například pro koncový bod vytvořený v 08:00 UTC 1. prosince se hodina hostování vypočítá na 16 hodin v 00:00 UTC 2. prosince a 24 hodin v 00:00 UTC dne 3. prosince. Pokud uživatel pozastaví hostování koncového bodu v 16:30 UTC 3. prosince, vypočítá se pro fakturaci doba trvání (16,5 hodiny) od 00:00 do 16:30 UTC.

Osobní hlas

Pokud používáte funkci osobního hlasu, účtuje se vám úložiště profilů i syntéza.

Úložiště profilu: Po vytvoření osobního hlasového profilu se bude fakturovat, dokud se neodebere ze systému. Fakturační jednotka je každou hlasovou jednotkou za den. Pokud hlasové úložiště trvá déle než 24 hodin, bude se účtovat jako jeden celý den.
Syntéza: Fakturováno na znak. Podrobnosti o fakturovatelných znaznachách najdete ve výše uvedených fakturovatelných znamech.

Avatar převodu textu na řeč

Při použití funkce avataru převodu textu na řeč se budou účtovat poplatky na základě délky výstupu videa a budou účtovány za sekundu. V případě avatara v reálném čase jsou však poplatky založeny na čase, kdy je avatar aktivní, bez ohledu na to, jestli mluví nebo zůstává tichý, a budou také účtovány za sekundu. Pokud chcete optimalizovat náklady na využití avatarů v reálném čase, projděte si tipy uvedené v ukázkovém kódu (vyhledejte "Použít místní video pro nečinnost"). Hostování avatarů se účtuje za sekundu za koncový bod. Pokud chcete ušetřit náklady, můžete koncový bod pozastavit. Pokud chcete koncový bod pozastavit, můžete ho odstranit přímo. Pokud ho chcete znovu použít, jednoduše znovu nasaďte koncový bod.

Monitorování metrik převodu textu do řeči v Azure

Monitorování klíčových metrik přidružených ke službám převodu textu na řeč je zásadní pro správu využití prostředků a řízení nákladů. V této části se dozvíte, jak najít informace o využití na webu Azure Portal a poskytnout podrobné definice klíčových metrik. Další podrobnosti o metrikách služby Azure Monitor najdete v přehledu metrik služby Azure Monitor.

Jak najít informace o využití na webu Azure Portal

Pokud chcete efektivně spravovat prostředky Azure, je nezbytné pravidelně přistupovat k informacím o využití a kontrolovat je. Tady je postup, jak najít informace o využití:

Přejděte na azure Portal a přihlaste se pomocí svého účtu Azure.
Přejděte na Prostředky a vyberte prostředek, který chcete monitorovat.
V nabídce vlevo vyberte Metriky v části Monitorování .
Přizpůsobení zobrazení metrik

Data můžete filtrovat podle typu prostředku, typu metriky, časového rozsahu a dalších parametrů a vytvářet vlastní zobrazení, která odpovídají vašim potřebám monitorování. Kromě toho můžete zobrazení metriky uložit na řídicí panely výběrem možnosti Uložit na řídicí panel , abyste měli snadný přístup k často používaným metrikám.
Nastavte upozornění.

Pokud chcete efektivněji spravovat využití, nastavte upozornění tak, že v nabídce vlevo přejdete na kartu Upozornění v části Monitorování . Výstrahy vás můžou upozornit, když využití dosáhne konkrétních prahových hodnot, což pomáhá zabránit neočekávaným nákladům.

Definice metrik

Níže je tabulka shrnující klíčové metriky pro služby převodu textu do řeči v Azure.

Název metriky	Popis
Syntetizované znaky	Sleduje počet znaků převedených na řeč, včetně předem připraveného neurálního hlasu a vlastního neurálního hlasu. Podrobnosti o fakturovatelných znamech najdete v tématu Fakturovatelné znaky.
Syntetizované sekundy videa	Měří celkovou dobu trvání videa syntetizovaného, včetně dávkové syntézy avatarů, syntézy avatarů v reálném čase a vlastní syntézy avatarů.
Avatar Model Hosting Seconds	Sleduje celkovou dobu v sekundách, po kterou je váš vlastní model avataru hostovaný.
Hodiny hostování hlasových modelů	Sleduje celkovou dobu v hodinách, kterou hostuje váš vlastní neurální hlasový model.
Minuty trénování hlasových modelů	Měří celkový čas v minutách pro trénování vlastního neurálního hlasového modelu.

Referenční dokumenty

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Sdílet prostřednictvím