Co je řeč na text?
Služba Azure AI Speech nabízí pokročilé funkce převodu řeči na text. Tato funkce podporuje přepis v reálném čase i dávkové přepisy a poskytuje všestranná řešení pro převod zvukových proudů na text.
Základní funkce
Služba převodu řeči na text nabízí následující základní funkce:
- Přepis v reálném čase : Okamžitý přepis s průběžnými výsledky pro živé zvukové vstupy.
- Rychlý přepis: Nejrychlejší synchronní výstup pro situace s předvídatelnou latencí
- Dávkový přepis: Efektivní zpracování velkých objemů předem zaznamenaného zvuku
- Vlastní řeč: Modely s vylepšenou přesností pro konkrétní domény a podmínky.
Převod řeči na text v reálném čase
Řeč v reálném čase na text přepisuje zvuk, protože je rozpoznán z mikrofonu nebo souboru. Je ideální pro aplikace vyžadující okamžitý přepis, například:
- Přepisy, titulky nebo titulky pro živé schůzky: Přepis zvuku v reálném čase pro přístupnost a uchovávání záznamů.
- Diarizace: Identifikace a rozlišení mezi různými reproduktory ve zvuku.
- Hodnocení výslovnosti: Vyhodnocení a poskytnutí zpětné vazby k přesnosti výslovnosti
- Agenti call center pomáhají: Poskytuje přepis v reálném čase, který pomáhá zástupcům služeb zákazníkům.
- Diktování: Přepis mluvených slov do psaného textu pro účely dokumentace
- Hlasová agenti: Povolení interaktivních systémů hlasové odezvy k přepisu uživatelských dotazů a příkazů.
K převodu řeči na text v reálném čase je možné přistupovat prostřednictvím sady Speech SDK, rozhraní příkazového řádku služby Speech a rozhraní REST API, což umožňuje integraci do různých aplikací a pracovních postupů. Řeč na text v reálném čase je dostupná prostřednictvím sady Speech SDK, rozhraní příkazového řádku služby Speech a rozhraní REST API, jako je rozhraní API pro rychlý přepis.
Rychlý přepis (Preview)
Rozhraní API pro rychlý přepis se používá k přepisu zvukových souborů s synchronním a rychlejším vrácením výsledků než zvuk v reálném čase. Používejte rychlý přepis ve scénářích, kdy potřebujete co nejrychleji přepis zvukového záznamu s předvídatelnou latencí, například:
- Rychlé přepisy zvuku nebo videa a titulky: Rychle získejte přepis celého videa nebo zvukového souboru najednou.
- Překlad videa: Pokud máte zvuk v různých jazycích, okamžitě získejte nové titulky pro video.
Poznámka:
Rozhraní API pro rychlý přepis je dostupné jenom prostřednictvím rozhraní REST API pro převod řeči na text verze 2024-05-15-preview a novější.
Pokud chcete začít s rychlým přepisem, podívejte se na rychlé rozhraní API pro přepis (Preview).
Rozhraní API pro dávkový přepis
Dávkové přepisy jsou navržené pro přepis velkého množství zvuku uloženého v souborech. Tato metoda zpracovává zvuk asynchronně a je vhodná pro:
- Přepisy, titulky nebo titulky pro předem zaznamenaný zvuk: Převod uloženého zvukového obsahu na text
- Analýza po volání v kontaktním centru: Analýza zaznamenaných volání za účelem extrakce cenných přehledů
- Diarizace: Odlišování mezi reproduktory v nahraném zvuku.
Dávkový přepis je k dispozici prostřednictvím:
Rozhraní REST API pro převod řeči na text: Usnadňuje dávkové zpracování s flexibilitou volání RESTful. Pokud chcete začít, přečtěte si, jak používat dávkové přepisy a ukázky přepisu služby Batch.
Speech CLI: Podporuje přepis v reálném čase i dávkový přepis, což usnadňuje správu úloh přepisu. V případě nápovědy k rozhraní příkazového řádku služby Speech s dávkovým přepisem spusťte následující příkaz:
spx help batch transcription
Vlastní řeč
Pomocí vlastní řeči můžete vyhodnotit a zlepšit přesnost rozpoznávání řeči pro vaše aplikace a produkty. Vlastní model řeči se dá použít pro převod řeči v reálném čase na text, překlad řeči a dávkový přepis.
Tip
Koncový bod hostovaného nasazení není nutný k použití vlastní řeči s rozhraním API pro přepis služby Batch. Prostředky můžete ušetřit, pokud se vlastní model řeči používá jenom pro dávkový přepis. Další informace najdete v tématu Ceny služby Speech.
Rozpoznávání řeči využívá univerzální jazykový model jako základní model trénovaný s daty vlastněnými Microsoftem a odráží běžně používaný mluvený jazyk. Základní model je předem natrénovaný pomocí dialektů a fonetik představujících různé společné domény. Když provedete žádost o rozpoznávání řeči, použije se ve výchozím nastavení nejnovější základní model pro každý podporovaný jazyk . Základní model funguje dobře ve většině scénářů rozpoznávání řeči.
Vlastní řeč umožňuje přizpůsobit model rozpoznávání řeči tak, aby lépe vyhovoval konkrétním potřebám vaší aplikace. To může být užitečné zejména pro:
- Zlepšení rozpoznávání slovníku specifického pro doménu: Vytrénujte model textovými daty relevantními pro vaše pole.
- Zvýšení přesnosti pro konkrétní zvukové podmínky: K upřesnění modelu použijte zvuková data s referenčními přepisy.
Další informace o vlastní řeči najdete v přehledu vlastní řeči a v dokumentaci k rozhraní REST API pro převod řeči na text.
Podrobnosti o možnostech přizpůsobení pro jednotlivé jazyky a národní prostředí najdete v dokumentaci ke službě Speech v jazyce a hlasové podpoře.
Příklady použití
Tady je několik praktických příkladů použití řeči Azure AI k textu:
Případ použití | Scenario | Řešení |
---|---|---|
Přepisy a titulky živé schůzky | Platforma virtuálních událostí musí poskytovat titulky pro webináře v reálném čase. | Integrujte řeč v reálném čase s textem pomocí sady Speech SDK k přepisu mluveného obsahu do titulků zobrazených živě během události. |
Vylepšení služeb zákazníkům | Call center chce pomoct agentům tím, že poskytuje přepisy hovorů zákazníků v reálném čase. | Pomocí řeči v reálném čase můžete textovat prostřednictvím rozhraní příkazového řádku služby Speech k přepisu volání, což umožňuje agentům lépe porozumět dotazům zákazníků a reagovat na ně. |
Podtitul videa | Platforma pro hostování videí chce rychle vygenerovat sadu titulků pro video. | Pomocí rychlého přepisu můžete rychle získat sadu titulků pro celé video. |
Vzdělávací nástroje | Cílem platformy elektronického učení je poskytnout přepisy pro video přednášky. | Použití dávkového přepisu prostřednictvím řeči na textové rozhraní REST API ke zpracování předem naznamenaných přednáškových videí a generování přepisů textu pro studenty. |
Dokumentace ke zdravotnictví | Poskytovatel zdravotní péče musí zdokumentovat konzultace pacientů. | Používejte řeč v reálném čase k psaní textu pro diktování, což odborníkům v oblasti zdravotnictví umožňuje mluvit s poznámkami a okamžitě je přepisovat. Použití vlastního modelu k vylepšení rozpoznávání konkrétních lékařských termínů. |
Média a zábava | Mediální společnost chce vytvořit titulky pro velký archiv videí. | Pomocí dávkového přepisu můžete hromadně zpracovávat videosoubory a generovat přesné titulky pro každé video. |
Průzkum trhu | Firma zabývající se průzkumem trhu potřebuje analyzovat zpětnou vazbu zákazníků ze zvukových nahrávek. | Pomocí dávkového přepisu můžete převést zpětnou vazbu zvuku na text, což umožňuje snadnější analýzu a extrakci přehledů. |
Zodpovědná AI
Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.
- Poznámka transparentnosti a případy použití
- Charakteristiky a omezení
- Integrace a zodpovědné použití
- Data, ochrana osobních údajů a zabezpečení
Související obsah
- Začínáme s převodem řeči na text
- Vytvoření dávkového přepisu
- Podrobné informace o cenách najdete na stránce s cenami služby Speech.