Co to jest niestandardowy tekst do awatara mowy?

Niestandardowy awatar zamiany tekstu na mowę umożliwia utworzenie niestandardowego syntetycznego awatara rozmowy z jedną z nich dla aplikacji. Za pomocą niestandardowego tekstu do awatara mowy możesz utworzyć unikatowy i naturalny awatar dla swojego produktu lub marki, udostępniając dane nagrywania wideo wybranych aktorów. Jeśli utworzysz również niestandardowy neuronowy głos dla tego samego aktora i użyjesz go jako głosu awatara, awatar będzie jeszcze bardziej realistyczny.

Ważne

Dostęp niestandardowego tekstu do awatara mowy jest ograniczony na podstawie kryteriów uprawnień i użycia. Zażądaj dostępu w formularzu do wprowadzania.

Jak to działa?

Utworzenie niestandardowego tekstu do awatara mowy wymaga co najmniej 10 minut nagrania wideo talentu awatara jako danych treningowych i musisz najpierw uzyskać zgodę od talentu aktora.

Ważne

Obecnie w przypadku niestandardowego awatara zamiany tekstu na mowę przetwarzanie danych i trenowanie modelu odbywa się ręcznie.

Przed rozpoczęciem zapoznaj się z kilkoma zagadnieniami:

Twój przypadek użycia: Czy używasz awatara do tworzenia zawartości wideo, takiej jak materiały szkoleniowe, wprowadzenie do produktu lub użyjesz awatara jako wirtualnego sprzedawcy w rozmowie w czasie rzeczywistym z klientami? Istnieją pewne wymagania dotyczące rejestrowania dla różnych przypadków użycia.

Wygląd awatara: Niestandardowy tekst do mowy awatar wygląda tak samo jak talent awatara w danych treningowych i nie obsługujemy dostosowywania wyglądu modelu awatara, takich jak ubrania, fryzura itp. Więc jeśli aplikacja wymaga wielu stylów tego samego awatara, należy przygotować dane szkoleniowe dla każdego stylu, ponieważ każdy styl awatara będzie traktowany jako pojedynczy model awatara.

Głos awatara: niestandardowy tekst do mowy awatar może współpracować zarówno ze wstępnie utworzonymi głosami neuronowymi, jak i niestandardowymi głosami neuronowymi. Tworzenie niestandardowego neuronowego głosu dla talentu awatara i używanie go z awatarem znacznie zwiększy naturalność doświadczenia awatara.

Oto omówienie kroków tworzenia niestandardowego tekstu do awatara mowy:

  1. Uzyskiwanie zgody wideo: uzyskiwanie nagrania wideo z oświadczeniem o wyrażaniu zgody. Wyrażenie zgody jest nagraniem wideo talentu awatara czytającym oświadczenie, wyrażając zgodę na użycie ich obrazów i danych głosowych w celu wytrenowania niestandardowego tekstu do modelu awatara mowy.

  2. Przygotowywanie danych treningowych: upewnij się, że nagranie wideo jest w odpowiednim formacie. Dobrym pomysłem jest nakręcenie nagrania wideo w profesjonalnym studio do fotografowania wideo, aby uzyskać czysty obraz tła. Jakość wynikowego awatara w dużym stopniu zależy od nagranego filmu używanego do trenowania. Czynniki takie jak szybkość mówienia, postawa ciała, wyraz twarzy, gesty dłoni, spójność pozycji aktora i oświetlenie nagrania wideo są niezbędne do utworzenia angażującego niestandardowego tekstu do awatara mowy.

  3. Trenowanie modelu awatara: rozpoczniemy trenowanie niestandardowego modelu zamiany tekstu na mowę po zweryfikowaniu oświadczenia zgody talentu awatara. Ten krok jest obecnie wykonywany ręcznie przez firmę Microsoft. Otrzymasz powiadomienie po pomyślnym wytrenowanym modelu.

  4. Wdrażanie i używanie modelu awatara w apps

Sekwencja składników

Niestandardowy model awatara zamiany tekstu na mowę zawiera trzy składniki: analizator tekstu, syntezator dźwięku mowy i tekst do programu renderującego wideo awatara mowy.

  • Aby wygenerować plik wideo awatara lub strumień za pomocą modelu awatara, tekst jest pierwszym wejściem do analizatora tekstu, który dostarcza dane wyjściowe w postaci sekwencji phoneme.
  • Syntetyzator audio syntetyzuje dźwięk mowy dla tekstu wejściowego, a te dwie części są dostarczane przez tekst na mowę lub niestandardowe modele neuronowego głosu.
  • Na koniec neuronowy tekst do modelu awatara mowy przewiduje obraz synchronizacji wargi z dźwiękiem mowy, dzięki czemu syntetyczne wideo jest generowane.

Zrzut ekranu przedstawiający przegląd przepływu pracy awatara zamiany tekstu niestandardowego na mowę.

Neuronowy tekst do modeli awatara mowy są trenowane przy użyciu głębokich sieci neuronowych na podstawie próbek nagrywania ludzkich filmów wideo w różnych językach. Obsługiwane mogą być wszystkie języki wstępnie utworzonych głosów i niestandardowe neuronowe głosy.

Niestandardowy głos i niestandardowy tekst do awatara mowy

Niestandardowy tekst do awatara mowy może współpracować ze wstępnie utworzonym neuronowym głosem lub niestandardowym głosem neuronowym jako głosem awatara. Aby uzyskać więcej informacji, zobacz Avatar voice and language (Głos awatara i język).

Niestandardowy neuronowy głos i niestandardowy tekst na awatar mowy są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli zdecydujesz się używać ich razem, musisz zastosować niestandardowy neuronowy głos i niestandardowy tekst do awatara mowy oddzielnie, a opłaty będą naliczane oddzielnie za niestandardowy neuronowy głos i niestandardowy tekst do awatara mowy. Aby uzyskać więcej informacji, zobacz stronę cennika. Ponadto jeśli planujesz używać niestandardowego neuronowego głosu z tekstem do awatara mowy, musisz wdrożyć lub skopiować niestandardowy model neuronowego głosu do jednego z obsługiwanych regionów awatara.

Następne kroki