Co je řeč na text?

Služba Azure AI Speech nabízí pokročilé funkce převodu řeči na text. Tato funkce podporuje přepis v reálném čase i dávkové přepisy a poskytuje všestranná řešení pro převod zvukových proudů na text.

Základní funkce

Služba převodu řeči na text nabízí následující základní funkce:

  • Přepis v reálném čase : Okamžitý přepis s průběžnými výsledky pro živé zvukové vstupy.
  • Rychlý přepis: Nejrychlejší synchronní výstup pro situace s předvídatelnou latencí
  • Dávkový přepis: Efektivní zpracování velkých objemů předem zaznamenaného zvuku
  • Vlastní řeč: Modely s vylepšenou přesností pro konkrétní domény a podmínky.

Převod řeči na text v reálném čase

Řeč v reálném čase na text přepisuje zvuk, protože je rozpoznán z mikrofonu nebo souboru. Je ideální pro aplikace vyžadující okamžitý přepis, například:

  • Přepisy, titulky nebo titulky pro živé schůzky: Přepis zvuku v reálném čase pro přístupnost a uchovávání záznamů.
  • Diarizace: Identifikace a rozlišení mezi různými reproduktory ve zvuku.
  • Hodnocení výslovnosti: Vyhodnocení a poskytnutí zpětné vazby k přesnosti výslovnosti
  • Agenti call center pomáhají: Poskytuje přepis v reálném čase, který pomáhá zástupcům služeb zákazníkům.
  • Diktování: Přepis mluvených slov do psaného textu pro účely dokumentace
  • Hlasová agenti: Povolení interaktivních systémů hlasové odezvy k přepisu uživatelských dotazů a příkazů.

K převodu řeči na text v reálném čase je možné přistupovat prostřednictvím sady Speech SDK, rozhraní příkazového řádku služby Speech a rozhraní REST API, což umožňuje integraci do různých aplikací a pracovních postupů. Řeč na text v reálném čase je dostupná prostřednictvím sady Speech SDK, rozhraní příkazového řádku služby Speech a rozhraní REST API, jako je rozhraní API pro rychlý přepis.

Rychlý přepis (Preview)

Rozhraní API pro rychlý přepis se používá k přepisu zvukových souborů s synchronním a rychlejším vrácením výsledků než zvuk v reálném čase. Používejte rychlý přepis ve scénářích, kdy potřebujete co nejrychleji přepis zvukového záznamu s předvídatelnou latencí, například:

  • Rychlé přepisy zvuku nebo videa a titulky: Rychle získejte přepis celého videa nebo zvukového souboru najednou.
  • Překlad videa: Pokud máte zvuk v různých jazycích, okamžitě získejte nové titulky pro video.

Poznámka:

Rozhraní API pro rychlý přepis je dostupné jenom prostřednictvím rozhraní REST API pro převod řeči na text verze 2024-05-15-preview a novější.

Pokud chcete začít s rychlým přepisem, podívejte se na rychlé rozhraní API pro přepis (Preview).

Rozhraní API pro dávkový přepis

Dávkové přepisy jsou navržené pro přepis velkého množství zvuku uloženého v souborech. Tato metoda zpracovává zvuk asynchronně a je vhodná pro:

  • Přepisy, titulky nebo titulky pro předem zaznamenaný zvuk: Převod uloženého zvukového obsahu na text
  • Analýza po volání v kontaktním centru: Analýza zaznamenaných volání za účelem extrakce cenných přehledů
  • Diarizace: Odlišování mezi reproduktory v nahraném zvuku.

Dávkový přepis je k dispozici prostřednictvím:

  • Rozhraní REST API pro převod řeči na text: Usnadňuje dávkové zpracování s flexibilitou volání RESTful. Pokud chcete začít, přečtěte si, jak používat dávkové přepisy a ukázky přepisu služby Batch.

  • Speech CLI: Podporuje přepis v reálném čase i dávkový přepis, což usnadňuje správu úloh přepisu. V případě nápovědy k rozhraní příkazového řádku služby Speech s dávkovým přepisem spusťte následující příkaz:

    spx help batch transcription
    

Vlastní řeč

Pomocí vlastní řeči můžete vyhodnotit a zlepšit přesnost rozpoznávání řeči pro vaše aplikace a produkty. Vlastní model řeči se dá použít pro převod řeči v reálném čase na text, překlad řeči a dávkový přepis.

Tip

Koncový bod hostovaného nasazení není nutný k použití vlastní řeči s rozhraním API pro přepis služby Batch. Prostředky můžete ušetřit, pokud se vlastní model řeči používá jenom pro dávkový přepis. Další informace najdete v tématu Ceny služby Speech.

Rozpoznávání řeči využívá univerzální jazykový model jako základní model trénovaný s daty vlastněnými Microsoftem a odráží běžně používaný mluvený jazyk. Základní model je předem natrénovaný pomocí dialektů a fonetik představujících různé společné domény. Když provedete žádost o rozpoznávání řeči, použije se ve výchozím nastavení nejnovější základní model pro každý podporovaný jazyk . Základní model funguje dobře ve většině scénářů rozpoznávání řeči.

Vlastní řeč umožňuje přizpůsobit model rozpoznávání řeči tak, aby lépe vyhovoval konkrétním potřebám vaší aplikace. To může být užitečné zejména pro:

  • Zlepšení rozpoznávání slovníku specifického pro doménu: Vytrénujte model textovými daty relevantními pro vaše pole.
  • Zvýšení přesnosti pro konkrétní zvukové podmínky: K upřesnění modelu použijte zvuková data s referenčními přepisy.

Další informace o vlastní řeči najdete v přehledu vlastní řeči a v dokumentaci k rozhraní REST API pro převod řeči na text.

Podrobnosti o možnostech přizpůsobení pro jednotlivé jazyky a národní prostředí najdete v dokumentaci ke službě Speech v jazyce a hlasové podpoře.

Příklady použití

Tady je několik praktických příkladů použití řeči Azure AI k textu:

Případ použití Scenario Řešení
Přepisy a titulky živé schůzky Platforma virtuálních událostí musí poskytovat titulky pro webináře v reálném čase. Integrujte řeč v reálném čase s textem pomocí sady Speech SDK k přepisu mluveného obsahu do titulků zobrazených živě během události.
Vylepšení služeb zákazníkům Call center chce pomoct agentům tím, že poskytuje přepisy hovorů zákazníků v reálném čase. Pomocí řeči v reálném čase můžete textovat prostřednictvím rozhraní příkazového řádku služby Speech k přepisu volání, což umožňuje agentům lépe porozumět dotazům zákazníků a reagovat na ně.
Podtitul videa Platforma pro hostování videí chce rychle vygenerovat sadu titulků pro video. Pomocí rychlého přepisu můžete rychle získat sadu titulků pro celé video.
Vzdělávací nástroje Cílem platformy elektronického učení je poskytnout přepisy pro video přednášky. Použití dávkového přepisu prostřednictvím řeči na textové rozhraní REST API ke zpracování předem naznamenaných přednáškových videí a generování přepisů textu pro studenty.
Dokumentace ke zdravotnictví Poskytovatel zdravotní péče musí zdokumentovat konzultace pacientů. Používejte řeč v reálném čase k psaní textu pro diktování, což odborníkům v oblasti zdravotnictví umožňuje mluvit s poznámkami a okamžitě je přepisovat. Použití vlastního modelu k vylepšení rozpoznávání konkrétních lékařských termínů.
Média a zábava Mediální společnost chce vytvořit titulky pro velký archiv videí. Pomocí dávkového přepisu můžete hromadně zpracovávat videosoubory a generovat přesné titulky pro každé video.
Průzkum trhu Firma zabývající se průzkumem trhu potřebuje analyzovat zpětnou vazbu zákazníků ze zvukových nahrávek. Pomocí dávkového přepisu můžete převést zpětnou vazbu zvuku na text, což umožňuje snadnější analýzu a extrakci přehledů.

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.