Anpassen von Stimme und Ton mit SSML

Sie können die Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML) verwenden, um die Stimme, die Sprache, den Namen, den Stil und die Rolle für Sprachsynthese für Ihre Sprachausgabe anzugeben. Sie können auch mehrere Stimmen in einem einzelnen SSML-Dokument verwenden und die Betonung, Sprechrate, Tonhöhe und Lautstärke anpassen. Darüber hinaus bietet SSML die Möglichkeit, vorab aufgezeichnete Audiodaten einzufügen, z. B. einen Soundeffekt oder eine Musiknote.

In diesem Artikel erfahren Sie, wie Sie SSML-Elemente verwenden, um Stimme und Ton anzugeben. Weitere Informationen zur SSML-Syntax finden Sie unter SSML-Dokumentstruktur und -Ereignisse.

Verwenden von Sprachelementen

In jedem SSML-Speak-Element muss mindestens ein voice-Element angegeben werden. Dieses Element legt die Stimme fest, die für Sprachsynthese verwendet wird.

Sie können mehrere voice-Elemente in ein einzelnes SSML-Dokument aufnehmen. Jedes voice-Element kann eine andere Stimme angeben. Ferner können Sie dieselbe Stimme mehrmals mit unterschiedlichen Einstellungen verwenden, etwa beim Ändern der Ruhedauer zwischen Sätzen.

In der folgenden Tabelle ist die Verwendung der Attribute des voice-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
name Die Stimme, die für die Ausgabe der Sprachsynthese verwendet wird. Eine vollständige Liste der unterstützten vordefinierten Stimmen finden Sie unter Sprachunterstützung. Erforderlich
effect Der Prozessor für den Audioeffekt, der verwendet wird, um die Qualität der synthetisierten Sprachausgabe für bestimmte Szenarien auf Geräten zu optimieren.

In einigen Szenarien in Produktionsumgebungen könnte die Hörerfahrung aufgrund der Wiedergabeverzerrung auf bestimmten Geräten beeinträchtigt werden. Beispielsweise könnte die synthetisierte Sprache eines Autolautsprechers aufgrund von Umgebungsfaktoren wie Lautsprecherantwort, Raumhall und Hintergrundgeräuschen dumpf und gedämpft klingen. Der Passagier muss möglicherweise die Lautstärke aufdrehen, um besser zu hören. Um manuelle Vorgänge in einem solchen Szenario zu vermeiden, kann der Prozessor für den Audioeffekt den Sound klarer machen, indem er die Verzerrung der Wiedergabe kompensiert.

Die folgenden Werte werden unterstützt:
  • eq_car – Optimieren Sie die Hörerfahrung bei der Bereitstellung von High-Fidelity-Sprache in Autos, Bussen und anderen geschlossenen Fahrzeugen.
  • eq_telecomhp8k – Optimieren Sie die Hörerfahrung für schmalbandige Sprache in Telekommunikations- oder Telefonszenarien. Sie sollten eine Abtastrate von 8 kHz verwenden. Wenn die Abtastrate nicht 8 kHz beträgt, wird die Hörqualität der Ausgabesprache nicht optimiert.

Wenn der Wert fehlt oder ungültig ist, wird dieses Attribut ignoriert, und es wird kein Effekt angewendet.
Optional

Stimmbeispiele

Informationen zu den unterstützten Werten für Attribute des voice-Elements finden Sie unter Verwenden von Sprachelementen.

Beispiel mit einer Stimme

In diesem Beispiel wird die Stimme en-US-AvaMultilingualNeural verwendet.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Beispiel für mehrere Stimmen

Innerhalb des speak-Elements können Sie mehrere Stimmen für die Ausgabe der Sprachsynthese angeben. Diese Stimmen können in verschiedenen Sprachen sein. Der Text muss bei jeder Stimme von einem voice-Element umschlossen werden.

In diesem Beispiel wird zwischen den Stimmen en-US-AvaMultilingualNeural und en-US-AndrewMultilingualNeural abgewechselt. Die neuronalen mehrsprachigen Stimmen können auf der Grundlage des eingegebenen Textes verschiedene Sprachen sprechen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Beispiel für eine benutzerdefinierte neuronale Stimme

Zum Verwenden Ihrer benutzerdefinierten neuronalen Stimme geben Sie den Modellnamen in SSML als Stimmnamen an.

In diesem Beispiel wird eine benutzerdefinierte Stimme mit dem Namen my-custom-voice verwendet.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Beispiel für Audioeffekte

Sie verwenden das effect-Attribut, um die Hörerfahrung für Szenarien wie Autos und Telekommunikation zu optimieren. Im folgenden SSML-Beispiel wird das effect-Attribut mit der Konfiguration in Fahrzeugszenarien verwendet.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Verwenden von Sprechstilen und Rollen

Neuronale Stimmen haben standardmäßig einen neutralen Sprechstil. Sie können die Sprechweise, den Stilgrad und die Rolle auf Satzebene anpassen.

Hinweis

Der Speech-Dienst unterstützt Stile, Stilgrad und Rollen für eine Teilmenge der neuronalen Stimmen, wie in der Dokumentation zu Sprechstilen und Rollen beschrieben. Um zu bestimmen, welche Stile und Rollen für jede Stimme unterstützt werden, können Sie auch die Stimmen auflisten-API und die Webanwendung zur Audioinhaltserstellung verwenden.

In der folgenden Tabelle ist die Verwendung der Attribute des mstts:express-as-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
style Der stimmspezifische Sprechstil. Sie können Emotionen wie Fröhlichkeit, Empathie und Besonnenheit ausdrücken. Sie können die Stimme auch für verschiedene Szenarien wie Kundendienst, Nachrichtenbeitrag und Sprachassistent optimieren. Wenn der Stilwert fehlt oder ungültig ist, wird das gesamte mstts:express-as-Element ignoriert, und der Dienst verwendet die neutrale Standardstimme. Informationen zu benutzerdefinierten neuronalen Sprechstilen finden Sie im Beispiel für benutzerdefinierte neuronale Stimme. Erforderlich
styledegree Die Intensität der Sprechweise. Sie können eine kräftigere oder sanftere Sprechweise angeben, um die Sprache ausdrucksstärker oder gedämpfter zu gestalten. Der Bereich der akzeptierten Werte ist: 0.01 bis einschließlich 2. Der Standardwert ist 1, d. h. die vordefinierte Intensität für die Sprechweise. Die minimale Einheit ist 0.01, was zu einer leichten Tendenz zur Zielsprechweise führt. Ein Wert von 2 führt zu einer Verdoppelung der standardmäßigen Intensität der Sprechweise. Wenn der Stilgrad fehlt oder für Ihre Stimme nicht unterstützt wird, wird dieses Attribut ignoriert. Optional
role Das Sprechrollenspiel. Die Stimme kann ein anderes Alter und Geschlecht imitieren, aber der Name der Stimme ändert sich nicht. Beispielsweise kann eine männliche Stimme die Tonhöhe erhöhen und die Intonation so ändern, dass eine weibliche Stimme imitiert wird, aber der Stimmname wird nicht geändert. Wenn die Rolle fehlt oder für Ihre Stimme nicht unterstützt wird, wird dieses Attribut ignoriert. Optional

In der folgenden Tabelle werden die einzelnen unterstützten style-Attribute beschrieben:

Style BESCHREIBUNG
style="advertisement_upbeat" Drückt einen begeisterten und energiegeladenen Ton aus, um ein Produkt oder einen Dienst zu bewerben.
style="affectionate" Warmer und herzlicher Ton mit höherer Tonhöhe und stimmlicher Energie Der Sprecher ist in einem Zustand, in dem er die Aufmerksamkeit der Zuhörer auf sich zieht. Die „Persönlichkeit“ des Sprechers ist oft von liebenswerter Art.
style="angry" Wütender und verärgerter Ton
style="assistant" Herzlicher und zwangloser Ton für digitale Assistenten
style="calm" Kühle, gesammelte und gelassene Haltung beim Sprechen Ton, Tonhöhe und Intonation sind im Vergleich zu anderen Sprachtypen viel einheitlicher.
style="chat" Lockerer und zwangloser Ton
style="cheerful" Positiver und fröhlicher Ton
style="customerservice" Freundlicher und hilfsbereiter Ton für den Kundensupport
style="depressed" Melancholischer und niedergeschlagener Ton mit geringerer Tonhöhe und weniger Energie
style="disgruntled" Verächtlicher und klagender Ton Eine Rede mit dieser Emotion zeugt von Unmut und Verachtung.
style="documentary-narration" Dokumentationen werden in einem entspannten, interessierten und informativen Stil erzählt, der sich für Dokumentationen, Expertenkommentare und ähnliche Inhalte eignet.
style="embarrassed" Unsicherer und zögerlicher Ton, wenn sich der Sprecher unwohl fühlt
style="empathetic" Drückt ein Gefühl von Anteilnahme und Verständnis aus
style="envious" Drückt einen Ton der Bewunderung aus, wenn eine Person etwas begehrt, das eine andere Person hat.
style="excited" Drückt einen optimistischen und hoffnungsvollen Ton aus. Es klingt, als ob etwas Großartiges passiert, und der Sprecher sich darüber freut.
style="fearful" Ängstlicher und nervöser Ton mit höherer Tonhöhe, höherer stimmlicher Energie und höherem Tempo Der Sprecher befindet sich in einem Zustand von Spannung und Unbehagen.
style="friendly" Drückt einen angenehmen, einladenden und warmen Ton aus. Es klingt aufrichtig und fürsorglich.
style="gentle" Sanfter, höflicher und angenehmer Ton mit geringerer Tonhöhe und stimmlicher Energie
style="hopeful" Drückt einen warmen und sehnsüchtigen Ton aus. Es klingt, als würde dem Sprecher etwas Gutes widerfahren.
style="lyrical" Melodischer und gefühlvoller Ton zum Ausdrücken von Emotionen
style="narration-professional" Professioneller und objektiver Ton für das Lesen von Inhalten
style="narration-relaxed" Beruhigender und melodiöser Ton für das Lesen von Inhalten.
style="newscast" Formeller und professioneller Ton für Nachrichten
style="newscast-casual" Gewandter und ungezwungener Ton für die Mitteilung allgemeiner Nachrichten
style="newscast-formal" Formaler, souveräner und verbindlicher Ton für die Mitteilung von Nachrichten
style="poetry-reading" Emotionaler und rhythmischer Ton beim Lesen eines Gedichts
style="sad" Trauriger Ton
style="serious" Strenger und gebieterischer Ton Der Sprecher klingt oft steifer und viel weniger entspannt mit festem Rhythmus.
style="shouting" Ein Tonfall, der so klingt, als ob die Stimme weit weg oder an einem anderen Ort ist und sich bemüht, deutlich gehört zu werden.
style="sports_commentary" Drückt einen entspannten und interessanten Ton bei der Übertragung von Sportereignissen aus.
style="sports_commentary_excited" Drückt einen intensiven und energiegeladenen Ton für aufregende Momente bei der Übertragung von Sportereignissen aus.
style="whispering" Drückt einen sanften Ton aus, der versucht, einen ruhigen und sanften Klang zu machen.
style="terrified" Drückt einen beängstigten Ton aus, hastig und mit zitternder Stimme. Es klingt, als befände sich der Sprecher in einem unsicheren und hektischen Zustand.
style="unfriendly" Drückt einen kalten und gleichgültigen Ton aus.

Die folgende Tabelle enthält Beschreibungen der einzelnen unterstützten role-Attribute:

Rolle BESCHREIBUNG
role="Girl" Die Stimme imitiert ein Mädchen.
role="Boy" Die Stimme imitiert einen Jungen.
role="YoungAdultFemale" Die Stimme imitiert eine junge erwachsene Frau.
role="YoungAdultMale" Die Stimme imitiert einen jungen erwachsenen Mann.
role="OlderAdultFemale" Die Stimme imitiert eine ältere erwachsene Frau.
role="OlderAdultMale" Die Stimme imitiert einen älteren erwachsenen Mann.
role="SeniorFemale" Die Stimme imitiert eine reife Frau.
role="SeniorMale" Die Stimme imitiert einen reifen Mann.

mstts express-as-Beispiele

Informationen zu den unterstützten Werten für Attribute des mstts:express-as-Elements finden Sie unter Verwenden von Sprechstilen und Rollen.

Beispiel für Stil und Grad

Sie verwenden das mstts:express-as-Element, um Emotionen wie Fröhlichkeit, Empathie und Besonnenheit auszudrücken. Sie können die Stimme auch für verschiedene Szenarien wie Kundendienst, Nachrichtenbeitrag und Sprachassistent optimieren.

Im folgenden SSML-Beispiel wird das <mstts:express-as> -Element mit dem Grad 2 für den sad Stil verwendet.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Rollenbeispiel

Abgesehen von der Anpassung der Sprechweisen und ihrer Abstufungen können Sie auch den role-Parameter anpassen, damit die Stimme ein anderes Alter und Geschlecht imitiert. Beispielsweise kann eine männliche Stimme die Tonhöhe erhöhen und die Intonation so ändern, dass eine weibliche Stimme imitiert wird, aber der Stimmname wird nicht geändert.

Dieser SSML-Codeausschnitt veranschaulicht, wie das Attribut role verwendet wird, um die Rolle für zh-CN-XiaomoNeural zu ändern.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Stilbeispiel für benutzerdefinierte neuronale Stimme

Sie können Ihre benutzerdefinierte neuronale Stimme so trainieren, dass sie mit einigen voreingestellten Stilen wie cheerful, sadund whisperingsprechen kann. Darüber hinaus können Sie eine benutzerdefinierte neuronale Stimme trainieren, in einem benutzerdefinierten Stil zu sprechen, der durch Ihre Trainingsdaten bestimmt wird. Zum Verwenden Ihres benutzerdefinierten neuronalen Sprechstils in SSML geben Sie den Namen des Stils an, den Sie zuvor in Speech Studio eingegeben haben.

In diesem Beispiel wird eine benutzerdefinierte Stimme mit dem Namen my-custom-voice verwendet. Die benutzerdefinierte Stimme spricht mit dem voreingestellten Stil cheerful und dem Stilgrad 2 und dann mit einem benutzerdefinierten Stil namens my-custom-style und dem Stilgrad 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Sprecherprofil-ID

Sie verwenden das mstts:ttsembedding Element, um die speakerProfileId Eigenschaft für eine persönliche Stimmeanzugeben. Persönliche Stimme ist eine benutzerdefinierte neurale Stimme, die auf Ihrer eigenen Stimme oder der Stimme Ihres Kunden trainiert wird. Weitere Informationen finden Sie unter Erstellen einer persönlichen Stimme.

Im folgenden SSML-Beispiel wird das <mstts:ttsembedding> Element mit einem Sprachnamen und einer Sprecherprofil-ID verwendet.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Anpassen der gesprochenen Sprachen

Standardmäßig können mehrsprachige Stimmen die Sprache des Eingabetexts automatisch erkennen und in der Sprache des Standardgebietsschemas des Eingabetexts sprechen, ohne SSML zu verwenden. Optional können Sie das <lang xml:lang>-Element verwenden, um die gesprochene Sprache für diese Stimmen anzupassen, um den bevorzugten Akzent festzulegen, z. B. auf en-GB für britisches Englisch. Sie können die Ausgabesprache sowohl auf Satzebene als auch auf Wortebene anpassen. Informationen zu den unterstützten Sprachen für mehrsprachige Spracherkennung finden Sie unter Mehrsprachige Stimmen mit dem lang-Element für eine Tabelle, die die <lang>-Syntax- und -Attributdefinitionen anzeigt.

In der folgenden Tabelle ist die Verwendung der Attribute des <lang xml:lang>-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
xml:lang Die Sprache, in der die neuronale Stimme sprechen soll. Erforderlich, um die gesprochene Sprache für die neuronale Stimme anzupassen. Wenn Sie lang xml:lang verwenden, muss das Gebietsschema angegeben werden.

Hinweis

Das <lang xml:lang>-Element ist mit den Elementen prosody und break nicht kompatibel. Sie können Pausen und Satzrhythmus wie Tonhöhe, Kontur, Geschwindigkeit oder Lautstärke in diesem Element nicht anpassen.

Nicht mehrsprachige Stimmen bieten standardmäßig keine Unterstützung für das <lang xml:lang>-Element.

Mehrsprachige Stimmen mit dem lang-Element

Verwenden Sie den Abschnitt Mehrsprachige Stimmen, um zu bestimmen, welche Ausgabesprachen der Speech-Dienst für jede neuronale Stimme unterstützt, wie in der folgenden Beispieltabelle gezeigt. Wenn die Stimme nicht die Sprache des Eingabetexts spricht, erfolgt keine synthetisierte Audioausgabe vom Speech-Dienst.

Voice Automatisch erkannte Sprachnummer Automatisch erkannte Sprache (Gebietsschema) Alle Gebietsschemanummern Alle von SSML unterstützten Sprachen (Gebietsschema)
en-US-AndrewMultilingualNeural1 (männlich)
en-US-AvaMultilingualNeural1 (weiblich)
en-US-BrianMultilingualNeural1 (männlich)
en-US-EmmaMultilingualNeural1 (weiblich)
77 Afrikaans (af-ZA), Albanisch (sq-AL), Amharisch (am-ET), Arabisch (ar-EG), Armenisch (hy-AM), Aserbaidschanisch (az-AZ), Bahasa Indonesia (id-ID), Bangla (bn-BD), Baskisch (eu-ES), Bengalisch (bn-IN), Bosnisch (bs-BA), Bulgarisch (bg-BG), Birmanisch (my-MM), Katalanisch (ca-ES), Chinesisch (Kantonesisch) (zh-HK), Chinesisch (Mandarin) (zh-CN), Chinesisch (Taiwanesisch) (zh-TW), Kroatisch (hr-HR), Tschechisch (cs-CZ), Dänisch (da-DK), Niederländisch (nl-NL), Englisch (en-US), Estnisch (et-EE), Filipino (fil-PH), Finnisch (fi-FI), Französisch (fr-FR), Galicisch (gl-ES), Georgisch (ka-GE), Deutsch (de-DE), Griechisch (el-GR), Hebräisch (he-IL), Hindi (hi-IN), Ungarisch (hu-HU), Isländisch (is-IS), Irisch (ga-IE), Italienisch (it-IT), Japanisch (ja-JP), Javanisch (jv-ID), Kannada (kn-IN), Kasachisch (kk-KZ), Khmer (km-KH), Koreanisch (ko-KR), Lao (lo-LA), Lettisch (lv-LV), Litauisch (lt-LT), Mazedonisch (mk-MK), Malaysisch (ms-MY), Malayalam (ml-IN), Maltesisch (mt-MT), Mongolisch (mn-MN), Nepali (ne-NP), Norwegisch (Bokmål) (nb-NO), Paschtunisch (ps-AF), Persisch (fa-IR), Polnisch (pl-PL), Portugiesisch (pt-BR), Rumänisch (ro-RO), Russisch (ru-RU), Serbisch (sr-RS), Singhalesisch (si-LK), Slowakisch (sk-SK), Slowenisch (sl-SI), Somali (so-SO), Spanisch (es-ES), Sundanesisch (su-ID), Kisuaheli (sw-KE), Schwedisch (sv-SE), Tamil (ta-IN), Telugu (te-IN), Thailändisch (th-TH), Türkisch (tr-TR), Ukrainisch (uk-UA), Urdu (ur-PK), Usbekisch (uz-UZ), Vietnamesisch (vi-VN), Walisisch (cy-GB), Zulu (zu-ZA) 91 Afrikaans (Südafrika) (af-ZA), Albanisch (Albanien) (sq-AL), Amharisch (Äthiopien) (am-ET), Arabisch (Ägypten) (ar-EG), Arabisch (Saudi-Arabien) (ar-SA), Armenisch (Armenien) (hy-AM), Aserbaidschanisch (Aserbaidschan) (az-AZ), Baskisch (Baskenland) (eu-ES), Bengalisch (Indien) (bn-IN), Bosnisch (Bosnien und Herzegowina) (bs-BA), Bulgarisch (Bulgarien) (bg-BG), Birmanisch (Myanmar) (my-MM), Katalanisch (Spanisch) (ca-ES), Chinesisch (Kantonesisch, traditionell) (zh-HK), Chinesisch (Mandarin, vereinfacht) (zh-CN), Chinesisch (taiwanesisches Mandarin) (zh-TW), Kroatisch (Kroatien) (hr-HR), Tschechisch (Tschechien) (cs-CZ), Dänisch (Dänemark) (da-DK), Niederländisch (Belgien) (nl-BE), Niederländisch (Niederlande) (nl-NL), Englisch (Australien) (en-AU), Englisch (Kanada) (en-CA), Englisch (Hongkong (SAR)) (en-HK), Englisch (Indien) (en-IN), Englisch (Irland) (en-IE), Englisch (Vereinigtes Königreich) (en-GB), Englisch (USA) (en-US), Estnisch (Estland) (et-EE), Filipino (Philippinen) (fil-PH), Finnisch (Finland) (fi-FI), Französisch (Belgien) (fr-BE), Französisch (Kanada) (fr-CA), Französisch (Frankreich) (fr-FR), Französisch (Schweiz) (fr-CH), Galicisch (Galizien) (gl-ES), Georgisch (Georgien) (ka-GE), Deutsch (Österreich) (de-AT), Deutsch (Deutschland) (de-DE), Deutsch (Schweiz) (de-CH), Griechisch (Griechenland) (el-GR), Hebräisch (Israel) (he-IL), Hindi (Indien) (hi-IN), Ungarisch (Ungarn) (hu-HU), Isländisch (Island) (is-IS), Indonesisch (Indonesien) (id-ID), Irisch (Irland) (ga-IE), Italienisch (Italien) (it-IT), Japanisch (Japan) (ja-JP), Javanisch (Indonesien) (jv-ID), Kannada (Indien) (kn-IN), Kasachisch (Kasachstan) (kk-KZ), Khmer (Kambodscha) (km-KH), Koreanisch (Südkorea) (ko-KR), Lao (Laos) (lo-LA), Lettisch (Lettland) (lv-LV), Litauisch (Litauen) (lt-LT), Mazedonisch (Nordmazedonien) (mk-MK), Malaysisch (Malaysia) (ms-MY), Malayalam (Indien) (ml-IN), Maltesisch (Malta) (mt-MT), Mongolisch (Mongolei) (mn-MN), Nepali (Nepal) (ne-NP), Norwegisch (Bokmål, Norwegen) (nb-NO), Paschtunisch (Afghanistan) (ps-AF), Persisch (Iran) (fa-IR), Polnisch (Polen) (pl-PL), Portugiesisch (Brasilien) (pt-BR), Portugiesisch (Portugal) (pt-PT), Rumänisch (Rumänien) (ro-RO), Russisch (Russland) (ru-RU), Serbisch (Kyrillisch, Serbien) (sr-RS), Singhalesisch (Sri Lanka) (si-LK), Slowakisch (Slowakei) (sk-SK), Slowenisch (Slowenien) (sl-SI), Somali (Somalia) (so-SO), Spanisch (Mexiko) (es-MX), Spanisch (Spanien) (es-ES), Sundanesisch (Indonesien) (su-ID), Kisuaheli (Kenia) (sw-KE), Schwedisch (Schweden) (sv-SE), Tamil (Indien) (ta-IN), Telugu (Indien) (te-IN), Thailändisch (Thailand) (th-TH), Türkisch (Türkiye) (tr-TR), Ukrainisch (Ukraine) (uk-UA), Urdu (Pakistan) (ur-PK), Usbekisch (Usbekistan) (uz-UZ), Vietnamesisch (Vietnam) (vi-VN), Walisisch (Vereinigtes Königreich) (cy-GB), Zulu (Südafrika) (zu-ZA)

1 Das sind die neuronale mehrsprachige Stimmen in Azure KI Speech. Alle mehrsprachigen Stimmen können in der Sprache im Standardgebietsschema des Eingabetexts sprechen, ohne SSML zu verwenden. Sie können das <lang xml:lang>-Element jedoch weiterhin verwenden, um den Sprachakzent jeder Sprache anzupassen, um bevorzugte Akzente wie den britischen Akzent (en-GB) für Englisch festzulegen. Das primäre Gebietsschema für jede Stimme geht aus dem Präfix des Namens hervor. Das primäre Gebietsschema für die Stimme en-US-AndrewMultilingualNeural ist beispielsweise en-US.

Hinweis

Bestimmte SSML-Elemente wie break, emphasis, silence und sub werden in mehrsprachigen Stimmen nicht vollständig unterstützt.

Sprachbeispiele

Informationen zu den unterstützten Werten für Attribute des lang-Elements finden Sie unter Anpassen der gesprochenen Sprache.

en-US muss als Standardsprache innerhalb des speak-Elements angegeben werden, unabhängig davon, ob die Sprache an anderer Stelle angepasst wird. In diesem Beispiel ist en-US die primäre Sprache für en-US-AvaMultilingualNeural.

Dieser SSML-Codeausschnitt zeigt, wie Sie <lang xml:lang> verwenden, damit mit der neuronalen Stimme en-US-AvaMultilingualNeural in der Sprache de-DE gesprochen wird.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

Innerhalb des speak-Elements können Sie mehrere Sprache, einschließlich en-US, für die Sprachsynthese angeben. Bei jeder angepassten Sprache muss der Text mit der Sprache übereinstimmen und in ein voice-Element integriert werden. Dieser SSML-Codeausschnitt zeigt, wie Sie <lang xml:lang> verwenden, um die gesprochenen Sprachen in es-MX, en-US und fr-FR zu ändern.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Anpassen des Satzrhythmus

Sie können das prosody-Element verwenden, um Änderungen an Tonhöhe, Kontur, Bereich, Geschwindigkeit und Lautstärke für die Ausgabe der Sprachsynthese anzugeben. Das prosody-Element kann Text und die folgenden Elemente enthalten: audio, break, p, phoneme, prosody, say-as, sub und s.

Weil Attributwerte für den Satzrhythmus über einen breiten Bereich variieren können, interpretiert die Spracherkennung die zugewiesenen Werte als einen Vorschlag dazu, wie die tatsächlichen Satzrhythmuswerte für die ausgewählte Stimme lauten sollten. Die Sprachsynthese beschränkt oder ersetzt nicht unterstützte Werte. Beispiele für nicht unterstützte Werte sind eine Tonhöhe von 1 MHz oder eine Lautstärke von 120.

In der folgenden Tabelle ist die Verwendung der Attribute des prosody-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
contour Die Kontur stellt Änderungen der Tonhöhe dar. Diese Änderungen werden als ein Array von Zielen an den angegebenen Zeitpositionen in der Sprachausgabe dargestellt. Sätze von Parameterpaaren definieren jedes Ziel. Beispiel:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

Der erste Wert in jeder Gruppe von Parametern gibt den Ort der Tonhöhenänderung als Prozentsatz der Textdauer an. Der zweite Wert gibt den Betrag an, um den die Tonhöhe erhöht oder verringert werden soll. Dazu wird ein relativer Wert oder ein Aufzählungswert für die Tonhöhe verwendet (siehe pitch). Die Tonhöhenkontur funktioniert nicht für einzelne Wörter und kurze Ausdrücke. Es wird empfohlen, die Tonhöhenkontur mit ganzen Sätzen oder längeren Sätzen anzupassen.
Optional
pitch Gibt die Basistonhöhe für den Text an. Änderungen der Tonhöhe können auf Satzebene vorgenommen werden. Die Tonhöhenänderungen sollten innerhalb von 0,5 bis 1.5 Mal der ursprünglichen Audiowiedergabe betragen. Sie können die Tonhöhe ausdrücken als:
  • Ein absoluter Wert, der ausgedrückt wird als eine Zahl, hinter der„Hz“ (Hertz) steht. Beispiel: <prosody pitch="600Hz">some text</prosody>.
  • Ein relativer Wert:
    • Ein relativer Wert, der ausgedrückt wird als eine Zahl, vor der „+“ oder „-“ und hinter der „Hz“ oder „st“ steht, was den Betrag zur Änderung der Tonhöhe angibt. Beispiel: <prosody pitch="+80Hz">some text</prosody> oder <prosody pitch="-2st">some text</prosody>. Das „st“ gibt an, dass die Änderungseinheit ein Halbton ist, bei dem es sich um die Hälfte eines Tons (ein halber Schritt) auf der diatonischen Standardtonleiter handelt.
    • Als Prozentsatz: ausgedrückt als Zahl, der "+" (optional) oder "-" vorangestellt wurde und der "%", folgt, was die relative Änderung angibt. Beispiel: <prosody pitch="50%">some text</prosody> oder <prosody pitch="-50%">some text</prosody>.
  • Einen konstanten Wert:
    • x-low (entspricht 0,55, -45 %)
    • low (entspricht 0,8, -20 %)
    • medium (entspricht 1, Standardwert)
    • high (entspricht 1,2, +20 %)
    • x-high (entspricht 1,45, +45 %)
Optional
range Ein Wert, der den Tonhöhenbereich für den Text darstellt. Sie können range mit denselben absoluten Werten, relativen Werten oder Aufzählungswerten ausdrücken, mit denen pitch beschrieben wird. Optional
rate Gibt die Sprechgeschwindigkeit für den Text an. Die Sprechgeschwindigkeit kann auf Wort- oder Satzebene angewendet werden. Die Geschwindigkeitsänderungen sollten innerhalb von 0.5 bis 2 Mal der ursprünglichen Audiowiedergabe betragen. Sie können rate ausdrücken als:
  • Ein relativer Wert:
    • Als eine relative Zahl: ausgedrückt als eine Zahl, die als Multiplikator des Standards fungiert. Zum Beispiel führt ein Wert von 1 zu keiner Änderung des ursprünglichen Kurses. Ein Wert von 0.5 führt zu einer Halbierung der ursprünglichen Rate. Ein Wert von 2 ergibt das Doppelte der ursprünglichen Rate.
    • Als Prozentsatz: ausgedrückt als Zahl, der "+" (optional) oder "-" vorangestellt wurde und der "%", folgt, was die relative Änderung angibt. Beispiel: <prosody rate="50%">some text</prosody> oder <prosody rate="-50%">some text</prosody>.
  • Einen konstanten Wert:
    • x-slow (entspricht 0,5, -50 %)
    • slow (entspricht 0,64, -46 %)
    • medium (entspricht 1, Standardwert)
    • fast (entspricht 1,55, +55 %)
    • x-fast (entspricht 2, +100 %)
Optional
volume Gibt die Lautstärke der Sprechstimme an. Änderungen der Lautstärke können auf Satzebene vorgenommen werden. Sie können die Lautstärke ausdrücken als:
  • Ein absoluter Wert, der ausgedrückt wird als eine Zahl im Bereich von 0.0 bis 100.0 – von am leisesten bis zu am lautesten, wie z. B. 75. Der Standardwert ist 100.0.
  • Ein relativer Wert:
    • Ein relativer Wert, der ausgedrückt wird als eine Zahl, vor der ein „+“ oder „-“ steht und die einen Betrag zum Ändern der Lautstärke angibt. Bespiele sind +10 oder -5.5.
    • Als Prozentsatz: ausgedrückt als Zahl, der "+" (optional) oder "-" vorangestellt wurde und der "%", folgt, was die relative Änderung angibt. Beispiel: <prosody volume="50%">some text</prosody> oder <prosody volume="+3%">some text</prosody>.
  • Einen konstanten Wert:
    • silent (entspricht 0)
    • x-soft (entspricht 0,2)
    • soft (entspricht 0,4)
    • medium (entspricht 0,6)
    • loud (entspricht 0,8)
    • x-loud (entspricht 1, Standardwert)
Optional

Prosodiebeispiele

Informationen zu den unterstützten Werten für Attribute des prosody-Elements finden Sie unter Anpassen des Satzrhythmus.

Beispiel zum Ändern der Sprechgeschwindigkeit

Dieser SSML-Codeschnipsel veranschaulicht, wie das rate-Attribut verwendet wird, um die Sprechrate auf 30 % höher als die Standardrate zu ändern.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Beispiel zum Ändern der Lautstärke

Dieser SSML-Codeschnipsel veranschaulicht, wie das volume-Attribut verwendet wird, um die Lautstärke auf 20 % höher als die Standardlautstärke zu ändern.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Beispiel zum Ändern der Tonhöhe

Dieser SSML-Codeschnipsel veranschaulicht, wie das pitch-Attribut verwendet wird, damit die Stimme in einer hohen Tonhöhe spricht.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Beispiel zum Ändern der Tonhöhenkontur

Dieser SSML-Codeschnipsel veranschaulicht, wie das Attribut contour verwendet wird, um die Kontur zu ändern.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Anpassen der Hervorhebung

Sie können das optionale Element emphasis zum Hinzufügen oder Entfernen von Word-Level-Stress für den Text verwenden. Dieses Element kann nur Text und die folgenden Elemente enthalten: audio, break, emphasis, lang, phoneme, prosody, say-as, sub und voice.

Hinweis

Die Hervorhebungsoptimierung auf Wortebene ist nur für diese neuronalen Stimmen verfügbar: en-US-GuyNeural, en-US-DavisNeural, und en-US-JaneNeural.

Bei Wörtern, die eine niedrige Tonhöhe und eine kurze Dauer haben, ist die Tonhöhe möglicherweise nicht hoch genug, um wahrgenommen zu werden.

In der folgenden Tabelle sind die Attribute des emphasis-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
level Gibt die Stärke der Hervorhebung an, die angewendet werden soll:
  • reduced
  • none
  • moderate
  • strong

Wenn das Attribut level nicht angegeben wird, ist moderate die Standardstufe. Ausführliche Informationen zu jedem Attribut finden Sie im Hervorhebungselement.
Optional

Betonungsbeispiele

Informationen zu den unterstützten Werten für Attribute des emphasis-Elements finden Sie unter Anpassen der Hervorhebung.

In diesem SSML-Codeausschnitt wird veranschaulicht, wie Sie das Element emphasis verwenden können, um für das Wort „Besprechungen“ eine moderate Akzentsetzung hinzuzufügen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Hinzufügen von Audioaufzeichnungen

Das audio-Element ist optional. Sie können damit vorab aufgezeichnete Audiodaten in ein SSML-Dokument einfügen. Der Textkörper des audio-Elements kann Nur-Text oder SSML-Markup enthalten, das verwendet wird, wenn die Audiodatei nicht verfügbar ist oder nicht wiedergegeben werden kann. Das audio-Element kann außerdem Text und die folgenden Elemente enthalten: audio, break, p, s, phoneme, prosody, say-as und sub.

Alle Audiodaten, die im SSML-Dokument enthalten sind, müssen die folgenden Anforderungen erfüllen:

  • Bei der Audiodatei muss es sich um eine gültige MP3-, WAV-, OPUS-, OGG-, FLAC- oder WMA-Datei handeln.
  • Die Gesamtzeit für alle Text- und Audiodateien in einer einzelnen Antwort kann nicht über 600 Sekunden liegen.
  • Die Audiodatei darf keine kundenspezifischen oder andere vertrauliche Informationen enthalten.

Hinweis

Das Element audio wird von der API für lange Audioinhalte nicht unterstützt. Verwenden Sie für die Langform-Sprachsynthese stattdessen die Batchsynthese-API.

In der folgenden Tabelle ist die Verwendung der Attribute des audio-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
src Der URI-Speicherort der Audiodatei. Die Audiodaten müssen auf einem HTTPS-Endpunkt gehostet werden, der über das Internet zugänglich ist. HTTPS ist erforderlich. Die Domäne, die die Datei hostet, muss über ein gültiges vertrauenswürdiges TSL/SSL-Zertifikat verfügen. Sie sollten die Audiodatei in einer Blob Storage-Instanz in derselben Azure-Region wie den Sprachsynthese-Endpunkt speichern, um die Wartezeit zu minimieren. Erforderlich

Audiobeispiele

Informationen zu den unterstützten Werten für Attribute des audio-Elements finden Sie unter Hinzufügen von Audioaufzeichnungen.

Dieser SSML-Codeschnipsel veranschaulicht, wie das src-Attribut verwendet wird, um Audio aus zwei WAV-Dateien einzufügen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Anpassen der Dauer der Audiodaten

Verwenden Sie das Element mstts:audioduration, um die Dauer von Audioausgaben festzulegen. Nutzen Sie dieses Element, um die zeitliche Steuerung von Audioausgaben zu synchronisieren. Die Audiodauer kann um das 0.5- bis 2-Fache der ursprünglichen Wiedergabegeschwindigkeit verlangsamt oder beschleunigt werden. Bei der ursprünglichen Audioausgabe handelt es sich um die Audiodaten ohne andere Wiedergabeeinstellungen. Die Sprechgeschwindigkeit wird basierend auf dem festgelegten Wert entsprechend verlangsamt oder beschleunigt.

Die Einstellung für die Audiodauer gilt für den gesamten Eingabetext innerhalb des umschließenden voice-Elements. Um die Einstellung für die Audiodauer zurückzusetzen oder erneut zu ändern, müssen Sie ein neues voice-Element entweder mit derselben oder einer anderen Stimme verwenden.

In der folgenden Tabelle ist die Verwendung der Attribute des mstts:audioduration-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
value Angeforderte Dauer der Audioausgabe in Sekunden, z. B. 2s, oder in Millisekunden, z. B. 2000ms.

Der Maximalwert für die Ausgabeaudiodauer beträgt 300 Sekunden. Dieser Wert sollte dem 0.5- bis 2-Fachen der ursprünglichen Audiodauer ohne weitere Wiedergabeeinstellungen entsprechen. Wenn die angeforderte Dauer Ihrer Audiodaten beispielsweise 30s entspricht, muss die ursprüngliche Audiodauer zwischen 15 und 60 Sekunden liegen. Wenn Sie einen Wert außerhalb dieser Grenzen festlegen, wird die Dauer entsprechend dem jeweiligen minimalen oder maximalen Vielfachen festgelegt. Für die Ausgabe von Audiodaten, die länger als 300 Sekunden sind, generieren Sie zunächst das Original-Audiomaterial ohne weitere Rateneinstellungen und berechnen dann die Rate, die Sie mit Hilfe der Prosodie-Rate anpassen müssen, um die gewünschte Dauer zu erreichen.
Erforderlich

mstts-Beispiele für die Audiodauer

Informationen zu den unterstützten Werten für Attribute des mstts:audioduration-Elements finden Sie unter Anpassen der Dauer der Audiodaten.

In diesem Beispiel beträgt die ursprüngliche Audiowiedergabe etwa 15 Sekunden. Das mstts:audioduration-Element wird verwendet, um die Audiodauer auf 20 Sekunden oder 20s festzulegen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Hinzufügen von Hintergrundaudioaufnahmen

Sie können das mstts:backgroundaudio-Element verwenden, um Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzuzufügen oder eine Audiodatei mit Sprachsynthese zu mischen. Mithilfe von mstts:backgroundaudio können Sie im Hintergrund eine Audiodatei in einer Schleife laufen lassen, am Anfang der Sprachsynthese einblenden und am Ende der Sprachsynthese ausblenden.

Wenn die bereitgestellte Hintergrundaudioaufnahme kürzer ist als die Sprachsynthese oder das Ausblenden, wird sie in einer Schleife laufen gelassen. Wenn sie länger ist als die Sprachsynthese, wird sie angehalten, sobald das Ausblenden abgeschlossen ist.

Pro SSML-Dokument ist nur eine Hintergrundaudiodatei zulässig. Sie können audio-Tags in das Element voice integrieren, um dem SSML-Dokument weitere Audioaufnahmen hinzuzufügen.

Hinweis

Das mstts:backgroundaudio-Element sollte vor alle voice-Elemente gesetzt werden. Wenn angegeben, muss es sich um das erste untergeordnete Element des speak-Elements handelt.

Das Element mstts:backgroundaudio wird von der API für lange Audioinhalte nicht unterstützt. Verwenden Sie für die Langform-Sprachsynthese stattdessen die Batchsynthese-API (Vorschau).

In der folgenden Tabelle ist die Verwendung der Attribute des mstts:backgroundaudio-Elements beschrieben:

attribute BESCHREIBUNG Erforderlich oder optional
src Der URI-Speicherort der Hintergrundaudiodatei. Erforderlich
volume Die Lautstärke der Hintergrundaudiodatei. Zulässige Werte: 0 bis 100 (einschließlich). Standardwert: 1. Optional
fadein Die Einblendedauer der Hintergrundaudiodatei in Millisekunden. Der Standardwert ist 0, was dem „Nicht einblenden“ entspricht. Zulässige Werte: 0 bis 10000 (einschließlich). Optional
fadeout Die Ausblendedauer der Hintergrundaudiodatei in Millisekunden. Der Standardwert ist 0, was „Nicht ausblenden“ entspricht. Zulässige Werte: 0 bis 10000 (einschließlich). Optional

mstss backgroundaudio-Beispiele

Informationen zu den unterstützten Werten für Attribute des mstts:backgroundaudi-Elements finden Sie unter Hinzufügen von Hintergrundaudioaufnahmen.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Nächste Schritte