Wdrażanie profesjonalnego modelu głosu jako punktu końcowego

Po pomyślnym utworzeniu i wytrenowanym modelu głosu wdrożysz go w niestandardowym neuronowym punkcie końcowym głosu.

Uwaga

Można utworzyć maksymalnie 50 punktów końcowych przy użyciu standardowego zasobu mowy (S0), z których każdy ma własny niestandardowy neuronowy głos.

Aby użyć niestandardowego neuronowego głosu, należy określić nazwę modelu głosu, użyć niestandardowego identyfikatora URI bezpośrednio w żądaniu HTTP i użyć tego samego zasobu usługi Mowa, aby przejść przez uwierzytelnianie tekstu w usłudze mowy.

Dodawanie punktu końcowego wdrożenia

Aby utworzyć niestandardowy neuronowy punkt końcowy głosu:

  1. Zaloguj się do programu Speech Studio.

  2. Wybierz pozycję Niestandardowy głos> Nazwa >projektu Wdróż model>Wdróż model.

  3. Wybierz model głosu, który chcesz skojarzyć z tym punktem końcowym.

  4. Wprowadź nazwę i opis niestandardowego punktu końcowego.

  5. Wybierz pozycję Typ punktu końcowego zgodnie ze scenariuszem. Jeśli zasób znajduje się w obsługiwanym regionie, ustawieniem domyślnym dla typu punktu końcowego jest wysoka wydajność. W przeciwnym razie, jeśli zasób znajduje się w nieobsługiwanym regionie, jedyną dostępną opcją jest Szybkie wznawianie.

    • Wysoka wydajność: zoptymalizowana pod kątem scenariuszy z żądaniami syntezy w czasie rzeczywistym i dużymi ilościami, takimi jak konwersacyjna sztuczna inteligencja, boty call-center. Wdrażanie lub wznawianie punktu końcowego trwa około 5 minut. Aby uzyskać informacje o regionach, w których obsługiwany jest typ punktu końcowego o wysokiej wydajności , zobacz przypisy w tabeli regionów .
    • Szybkie wznawianie: zoptymalizowane pod kątem scenariuszy tworzenia zawartości audio z rzadziej występującymi żądaniami syntezy. Łatwe i szybkie wdrażanie lub wznawianie punktu końcowego w ciągu kilku minut. Typ punktu końcowego szybkiego wznawiania jest obsługiwany we wszystkich regionach, w których jest dostępny tekst na mowę.
  6. Wybierz pozycję Wdróż , aby utworzyć punkt końcowy.

Po wdrożeniu punktu końcowego jego nazwa jest wyświetlana jako link. Wybierz link, aby wyświetlić informacje specyficzne dla punktu końcowego, takie jak klucz punktu końcowego, adres URL punktu końcowego i przykładowy kod. Gdy stan wdrożenia to Powodzenie, punkt końcowy jest gotowy do użycia.

Ustawienia aplikacji

Ustawienia aplikacji używane jako parametry żądania interfejsu API REST są dostępne na karcie Wdrażanie modelu w usłudze Speech Studio.

Zrzut ekranu przedstawiający ustawienia niestandardowej aplikacji punktu końcowego w programie Speech Studio.

  • Klucz punktu końcowego pokazuje klucz zasobu usługi Mowa skojarzony z punktem końcowym. Użyj klucza punktu końcowego jako wartości nagłówka Ocp-Apim-Subscription-Key żądania.
  • Adres URL punktu końcowego pokazuje region usługi. Użyj wartości poprzedzającej voice.speech.microsoft.com jako parametr żądania regionu usługi. Na przykład użyj adresu eastus URL punktu końcowego.https://eastus.voice.speech.microsoft.com/cognitiveservices/v1
  • Adres URL punktu końcowego zawiera identyfikator punktu końcowego. Użyj wartości dołączonej do parametru ?deploymentId= zapytania jako wartości parametru żądania identyfikatora punktu końcowego.

Korzystanie z niestandardowego głosu

Niestandardowy punkt końcowy jest funkcjonalnie identyczny ze standardowym punktem końcowym używanym do obsługi żądań zamiany tekstu na mowę.

Jedną z różnic jest to, że należy określić, EndpointId aby używać głosu niestandardowego za pośrednictwem zestawu SPEECH SDK. Możesz rozpocząć od tekstu w przewodniku Szybki start do mowy, a następnie zaktualizować kod za pomocą elementu EndpointId i SpeechSynthesisVoiceName. Aby uzyskać więcej informacji, zobacz używanie niestandardowego punktu końcowego.

Aby użyć głosu niestandardowego za pomocą języka SSML (Speech Synthesis Markup Language), określ nazwę modelu jako nazwę głosu. W tym przykładzie użyto YourCustomVoiceName głosu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="YourCustomVoiceName">
        This is the text that is spoken. 
    </voice>
</speak>

Przełączanie do nowego modelu głosu w produkcie

Po zaktualizowaniu modelu głosowego do najnowszej wersji aparatu lub przełączeniu się na nowy głos w produkcie należy ponownie wdrożyć nowy model głosu w nowym punkcie końcowym. Ponowne wdrażanie nowego modelu głosu w istniejącym punkcie końcowym nie jest obsługiwane. Po wdrożeniu przełącz ruch do nowo utworzonego punktu końcowego. Zalecamy najpierw przeniesienie ruchu do nowego punktu końcowego w środowisku testowym, aby upewnić się, że ruch działa prawidłowo, a następnie przenieść go do nowego punktu końcowego w środowisku produkcyjnym. Podczas przejścia należy zachować stary punkt końcowy. Jeśli podczas przejścia występują problemy z nowym punktem końcowym, możesz wrócić do starego punktu końcowego. Jeśli ruch działa dobrze w nowym punkcie końcowym przez około 24 godziny (zalecana wartość), możesz usunąć stary punkt końcowy.

Uwaga

Jeśli nazwa głosu zostanie zmieniona i używasz języka SSML (Speech Synthesis Markup Language), pamiętaj, aby użyć nowej nazwy głosu w języku SSML.

Wstrzymywanie i wznawianie punktu końcowego

Możesz zawiesić lub wznowić punkt końcowy, aby ograniczyć wydatki i oszczędzać zasoby, które nie są używane. Opłaty nie będą naliczane, gdy punkt końcowy zostanie zawieszony. Po wznowieniu punktu końcowego możesz nadal używać tego samego adresu URL punktu końcowego w aplikacji do syntezowania mowy.

Uwaga

Operacja wstrzymania zostanie ukończona niemal natychmiast. Operacja wznawiania jest wykonywana w mniej więcej tym samym czasie co nowe wdrożenie.

W tej sekcji opisano sposób zawieszenia lub wznowienia niestandardowego neuronowego punktu końcowego głosu w portalu usługi Speech Studio.

Wstrzymywanie punktu końcowego

  1. Aby wstrzymać i dezaktywować punkt końcowy, wybierz pozycję Wstrzymaj na karcie Wdrażanie modelu w programie Speech Studio.

    Zrzut ekranu przedstawiający opcję wstrzymania punktu końcowego.

  2. W wyświetlonym oknie dialogowym wybierz pozycję Prześlij. Po zawieszeniu punktu końcowego program Speech Studio wyświetli powiadomienie o pomyślnym wstrzymaniu punktu końcowego .

Wznawianie punktu końcowego

  1. Aby wznowić i aktywować punkt końcowy, wybierz pozycję Wznów na karcie Wdrażanie modelu w usłudze Speech Studio.

    Zrzut ekranu przedstawiający opcję wybierz wznów punkt końcowy.

  2. W wyświetlonym oknie dialogowym wybierz pozycję Prześlij. Po pomyślnym ponownym uaktywnieniu punktu końcowego stan zmieni się z Zawieszone na Powodzenie.

Następne kroki

  • Dowiedz się więcej o niestandardowym neuronowym głosie w omówieniu.
  • Dowiedz się więcej o usłudze Speech Studio w omówieniu.

Po pomyślnym utworzeniu i wytrenowanym modelu głosu wdrożysz go w niestandardowym neuronowym punkcie końcowym głosu.

Uwaga

Można utworzyć maksymalnie 50 punktów końcowych przy użyciu standardowego zasobu mowy (S0), z których każdy ma własny niestandardowy neuronowy głos.

Dodawanie punktu końcowego wdrożenia

Aby utworzyć punkt końcowy, użyj Endpoints_Create operacji niestandardowego interfejsu API głosu. Skonstruuj treść żądania zgodnie z następującymi instrukcjami:

  • Ustaw wymaganą projectId właściwość. Zobacz Tworzenie projektu.
  • Ustaw wymaganą modelId właściwość. Zobacz trenowanie modelu głosu.
  • Ustaw wymaganą description właściwość. Opis można zmienić później.

Utwórz żądanie HTTP PUT przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Create .

  • Zastąp YourResourceKey ciąg kluczem zasobu usługi Mowa.
  • Zastąp YourResourceRegion element regionem zasobu usługi Mowa.
  • Zastąp EndpointId element wybranym identyfikatorem punktu końcowego. Identyfikator musi być identyfikatorem GUID i musi być unikatowy w ramach zasobu usługi Mowa. Identyfikator będzie używany w identyfikatorze URI projektu i nie można go później zmienić.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/EndpointId?api-version=2024-02-01-preview"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
  "properties": {
    "kind": "HighPerformance"
  },
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Nagłówek odpowiedzi zawiera Operation-Location właściwość . Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o operacji Endpoints_Create . Oto przykład nagłówka odpowiedzi:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/284b7e37-f42d-4054-8fa9-08523c3de345?api-version=2024-02-01-preview
Operation-Id: 284b7e37-f42d-4054-8fa9-08523c3de345

Punkt końcowy Operation-Location jest używany w kolejnych żądaniach interfejsu API, aby wstrzymać i wznowić punkt końcowy oraz usunąć punkt końcowy.

Korzystanie z niestandardowego głosu

Aby użyć niestandardowego neuronowego głosu, należy określić nazwę modelu głosu, użyć niestandardowego identyfikatora URI bezpośrednio w żądaniu HTTP i użyć tego samego zasobu usługi Mowa, aby przejść przez uwierzytelnianie tekstu w usłudze mowy.

Niestandardowy punkt końcowy jest funkcjonalnie identyczny ze standardowym punktem końcowym używanym do obsługi żądań zamiany tekstu na mowę.

Jedną z różnic jest to, że należy określić, EndpointId aby używać głosu niestandardowego za pośrednictwem zestawu SPEECH SDK. Możesz rozpocząć od tekstu w przewodniku Szybki start do mowy, a następnie zaktualizować kod za pomocą elementu EndpointId i SpeechSynthesisVoiceName. Aby uzyskać więcej informacji, zobacz używanie niestandardowego punktu końcowego.

Aby użyć głosu niestandardowego za pomocą języka SSML (Speech Synthesis Markup Language), określ nazwę modelu jako nazwę głosu. W tym przykładzie użyto YourCustomVoiceName głosu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="YourCustomVoiceName">
        This is the text that is spoken. 
    </voice>
</speak>

Wstrzymywanie punktu końcowego

Możesz zawiesić lub wznowić punkt końcowy, aby ograniczyć wydatki i oszczędzać zasoby, które nie są używane. Opłaty nie będą naliczane, gdy punkt końcowy zostanie zawieszony. Po wznowieniu punktu końcowego możesz nadal używać tego samego adresu URL punktu końcowego w aplikacji do syntezowania mowy.

Aby zawiesić punkt końcowy, użyj Endpoints_Suspend operacji niestandardowego interfejsu API głosu.

Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Suspend .

  • Zastąp YourResourceKey ciąg kluczem zasobu usługi Mowa.
  • Zastąp YourResourceRegion element regionem zasobu usługi Mowa.
  • Zastąp YourEndpointId element identyfikatorem punktu końcowego otrzymanego podczas tworzenia punktu końcowego.
curl -v -X POST "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId:suspend?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "content-type: application/json" -H "content-length: 0"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
  "properties": {
    "kind": "HighPerformance"
  },
  "status": "Disabling",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Wznawianie punktu końcowego

Aby zawiesić punkt końcowy, użyj Endpoints_Resume operacji niestandardowego interfejsu API głosu.

Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Resume .

  • Zastąp YourResourceKey ciąg kluczem zasobu usługi Mowa.
  • Zastąp YourResourceRegion element regionem zasobu usługi Mowa.
  • Zastąp YourEndpointId element identyfikatorem punktu końcowego otrzymanego podczas tworzenia punktu końcowego.
curl -v -X POST "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId:resume?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "content-type: application/json" -H "content-length: 0"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
  "properties": {
    "kind": "HighPerformance"
  },
  "status": "Running",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Usuwanie punktu końcowego

Aby usunąć punkt końcowy, użyj Endpoints_Delete operacji niestandardowego interfejsu API głosu.

Utwórz żądanie HTTP DELETE przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Delete .

  • Zastąp YourResourceKey ciąg kluczem zasobu usługi Mowa.
  • Zastąp YourResourceRegion element regionem zasobu usługi Mowa.
  • Zastąp YourEndpointId element identyfikatorem punktu końcowego otrzymanego podczas tworzenia punktu końcowego.
curl -v -X DELETE "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Powinien zostać wyświetlony nagłówek odpowiedzi z kodem stanu 204.

Przełączanie do nowego modelu głosu w produkcie

Po zaktualizowaniu modelu głosowego do najnowszej wersji aparatu lub przełączeniu się na nowy głos w produkcie należy ponownie wdrożyć nowy model głosu w nowym punkcie końcowym. Ponowne wdrażanie nowego modelu głosu w istniejącym punkcie końcowym nie jest obsługiwane. Po wdrożeniu przełącz ruch do nowo utworzonego punktu końcowego. Zalecamy najpierw przeniesienie ruchu do nowego punktu końcowego w środowisku testowym, aby upewnić się, że ruch działa prawidłowo, a następnie przenieść go do nowego punktu końcowego w środowisku produkcyjnym. Podczas przejścia należy zachować stary punkt końcowy. Jeśli podczas przejścia występują problemy z nowym punktem końcowym, możesz wrócić do starego punktu końcowego. Jeśli ruch działa dobrze w nowym punkcie końcowym przez około 24 godziny (zalecana wartość), możesz usunąć stary punkt końcowy.

Uwaga

Jeśli nazwa głosu zostanie zmieniona i używasz języka SSML (Speech Synthesis Markup Language), pamiętaj, aby użyć nowej nazwy głosu w języku SSML.

Następne kroki

  • Dowiedz się więcej o niestandardowym neuronowym głosie w omówieniu.
  • Dowiedz się więcej o usłudze Speech Studio w omówieniu.