Co to jest zamiana mowy na tekst?

Usługa Azure AI Speech oferuje zaawansowane możliwości zamiany mowy na tekst. Ta funkcja obsługuje zarówno transkrypcję w czasie rzeczywistym, jak i wsadową, zapewniając uniwersalne rozwiązania do konwertowania strumieni audio na tekst.

Podstawowe funkcje

Usługa zamiany mowy na tekst oferuje następujące podstawowe funkcje:

  • Transkrypcja w czasie rzeczywistym: natychmiastowa transkrypcja z wynikami pośrednimi dla danych wejściowych audio na żywo.
  • Szybka transkrypcja: najszybsze synchroniczne dane wyjściowe w sytuacjach z przewidywalnym opóźnieniem.
  • Transkrypcja wsadowa: wydajne przetwarzanie dużych ilości wstępnie rozpoznanego dźwięku.
  • Mowa niestandardowa: modele o zwiększonej dokładności dla określonych domen i warunków.

Zamiana mowy w czasie rzeczywistym na tekst

Zamiana mowy w czasie rzeczywistym na tekst transkrypuje dźwięk, ponieważ jest rozpoznawany z mikrofonu lub pliku. Idealnie nadaje się do aplikacji wymagających natychmiastowej transkrypcji, takich jak:

  • Transkrypcje, transkrypcje, transkrypcje lub napisy na żywo: transkrypcja audio w czasie rzeczywistym na potrzeby ułatwień dostępu i przechowywania rekordów.
  • Diarization: Identyfikowanie i rozróżnianie różnych głośników w dźwięku.
  • Ocena wymowy: ocenianie i przekazywanie opinii na temat dokładności wymowy.
  • Asystują agenci centrum telefonicznego: zapewnianie transkrypcji w czasie rzeczywistym w celu ułatwienia przedstawicielom działu obsługi klienta.
  • Dyktowanie: transkrybowanie wyrazów mówionych do tekstu napisanego na potrzeby dokumentacji.
  • Agenci głosowi: włączanie interakcyjnych systemów odpowiedzi głosowych w celu transkrypcji zapytań użytkowników i poleceń.

Dostęp do mowy w czasie rzeczywistym do tekstu można uzyskać za pośrednictwem zestawu SPEECH SDK, interfejsu wiersza polecenia usługi Mowa i interfejsu API REST, co umożliwia integrację z różnymi aplikacjami i przepływami pracy. Zamiana mowy w czasie rzeczywistym na tekst jest dostępna za pośrednictwem zestawu SPEECH SDK, interfejsu wiersza polecenia usługi Mowa i interfejsów API REST, takich jak interfejs API szybkiej transkrypcji.

Szybka transkrypcja (wersja zapoznawcza)

Interfejs API szybkiej transkrypcji służy do transkrypcji plików audio z zwracaniem wyników synchronicznie i szybciej niż dźwięk w czasie rzeczywistym. Użyj szybkiej transkrypcji w scenariuszach, w których potrzebujesz transkrypcji nagrania audio tak szybko, jak to możliwe z przewidywalnym opóźnieniem, na przykład:

  • Szybkie transkrypcje audio lub wideo i podtytuły: Szybko uzyskaj transkrypcję całego pliku wideo lub audio w jednym miejscu.
  • Tłumaczenie wideo: natychmiast uzyskaj nowe napisy wideo, jeśli masz dźwięk w różnych językach.

Uwaga

Interfejs API szybkiego transkrypcji jest dostępny tylko za pośrednictwem interfejsu API REST zamiany mowy na tekst w wersji 2024-05-15-preview i nowszej.

Aby rozpocząć pracę z szybką transkrypcją, zobacz używanie szybkiego interfejsu API transkrypcji (wersja zapoznawcza).

Interfejs API transkrypcji wsadowej

Transkrypcja wsadowa jest przeznaczona do transkrypcji dużych ilości dźwięku przechowywanego w plikach. Ta metoda przetwarza dźwięk asynchronicznie i jest odpowiednia dla:

  • Transkrypcje, transkrypcje lub napisy dla wstępnie utworzonego dźwięku: konwertowanie przechowywanej zawartości audio na tekst.
  • Analiza po wywołaniu centrum kontaktów: Analizowanie zarejestrowanych wywołań w celu wyodrębnienia cennych szczegółowych informacji.
  • Diarization: Różnicowanie między głośnikami w nagranym dźwięku.

Transkrypcja wsadowa jest dostępna za pośrednictwem:

  • Interfejs API REST zamiany mowy na tekst: ułatwia przetwarzanie wsadowe dzięki elastyczności wywołań RESTful. Aby rozpocząć, zobacz Jak używać transkrypcji wsadowej i przykładów transkrypcji usługi Batch.

  • Interfejs wiersza polecenia usługi Mowa: obsługuje zarówno transkrypcję w czasie rzeczywistym, jak i transkrypcję wsadową, co ułatwia zarządzanie zadaniami transkrypcji. Aby uzyskać pomoc dotyczącą transkrypcji wsadowych interfejsu wiersza polecenia usługi Mowa, uruchom następujące polecenie:

    spx help batch transcription
    

Mowa niestandardowa

Dzięki usłudze Custom Speech można ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów. Niestandardowy model mowy może służyć do zamiany mowy w czasie rzeczywistym na tekst, tłumaczenie mowy i transkrypcję wsadową.

Napiwek

Hostowany punkt końcowy wdrożenia nie jest wymagany do używania mowy niestandardowej z interfejsem API transkrypcji usługi Batch. Zasoby można oszczędzać, jeśli niestandardowy model mowy jest używany tylko do transkrypcji wsadowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Mowa.

Funkcja rozpoznawania mowy korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Model podstawowy jest wstępnie wytrenowany dialektami i fonetykami reprezentującymi różne typowe domeny. Podczas tworzenia żądania rozpoznawania mowy najnowszy model podstawowy dla każdego obsługiwanego języka jest używany domyślnie. Model podstawowy działa dobrze w większości scenariuszy rozpoznawania mowy.

Usługa Custom Speech umożliwia dostosowanie modelu rozpoznawania mowy w celu lepszego dopasowania do konkretnych potrzeb aplikacji. Może to być szczególnie przydatne w następujących celach:

  • Poprawa rozpoznawania słownictwa specyficznego dla domeny: wytrenuj model przy użyciu danych tekstowych istotnych dla pola.
  • Zwiększenie dokładności dla określonych warunków dźwiękowych: użyj danych dźwiękowych z transkrypcjami referencyjnymi, aby uściślić model.

Aby uzyskać więcej informacji na temat mowy niestandardowej, zobacz omówienie mowy niestandardowej i dokumentację interfejsu API REST zamiany mowy na tekst.

Aby uzyskać szczegółowe informacje na temat opcji dostosowywania dla poszczególnych języków i ustawień regionalnych, zobacz dokumentację dotyczącą języka i głosu dla usługi Mowa.

Przykłady użycia

Oto kilka praktycznych przykładów wykorzystania mowy sztucznej inteligencji platformy Azure do tekstu:

Przypadek użycia Scenariusz Rozwiązanie
Transkrypcje i transkrypcje spotkań na żywo Platforma zdarzeń wirtualnych musi udostępniać podpisy w czasie rzeczywistym na potrzeby seminariów internetowych. Integrowanie mowy w czasie rzeczywistym z tekstem przy użyciu zestawu SPEECH SDK w celu transkrypcji zawartości mówionej w podpisach wyświetlanych na żywo podczas wydarzenia.
Ulepszenia obsługi klienta Centrum telefoniczne chce pomóc agentom, zapewniając transkrypcje połączeń klientów w czasie rzeczywistym. Używanie mowy w czasie rzeczywistym do tekstu za pośrednictwem interfejsu wiersza polecenia usługi Mowa w celu transkrypcji wywołań, co umożliwia agentom lepsze zrozumienie zapytań klientów i reagowanie na nie.
Podtytuł wideo Platforma hostingu wideo chce szybko wygenerować zestaw napisów dla filmu wideo. Użyj szybkiej transkrypcji, aby szybko uzyskać zestaw napisów dla całego filmu wideo.
Narzędzia edukacyjne Platforma e-learning ma na celu zapewnienie transkrypcji na potrzeby wykładów wideo. Zastosuj transkrypcję wsadową za pomocą mowy do interfejsu API REST tekstu, aby przetworzyć wstępnie utworzone wideo wykładowe, generując transkrypcje tekstu dla uczniów.
Dokumentacja opieki zdrowotnej Dostawca opieki zdrowotnej musi udokumentować konsultacje pacjentów. Używaj mowy w czasie rzeczywistym do tekstu na potrzeby dyktowania, dzięki czemu pracownicy służby zdrowia mogą mówić swoimi notatkami i natychmiast je transkrybować. Użyj modelu niestandardowego, aby zwiększyć uznanie określonych terminów medycznych.
Media i rozrywka Firma zajmująca się mediami chce tworzyć napisy dla dużego archiwum filmów wideo. Użyj transkrypcji wsadowej, aby przetworzyć pliki wideo zbiorczo, generując dokładne podtytuły dla każdego wideo.
Badanie rynku Firma zajmująca się badaniami rynkowymi musi analizować opinie klientów na podstawie nagrań audio. Zastosowanie transkrypcji wsadowej w celu konwersji opinii audio na tekst, co umożliwia łatwiejsze analizowanie i wyodrębnianie szczegółowych informacji.

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.