Sprachsynthese-Container mit Docker

Artikel
09/17/2024

Der Container für neuronale Sprachsynthese konvertiert Text in natürlich klingende Sprache, indem er Deep Neural Network-Technologie verwendet, die eine natürlichere synthetisierte Sprache ermöglicht. In diesem Artikel erfahren Sie, wie Sie einen Sprachsynthesecontainer herunterladen, installieren und ausführen.

Weitere Informationen zu den Voraussetzungen, zum Überprüfen, ob ein Container ausgeführt wird, Ausführen mehrerer Container auf demselben Host und Ausführen nicht verbundener Container finden Sie unter Installieren und Ausführen von Docker-Containern für die APIs des Speech-Diensts.

Containerimages

Das neuronale Sprachsynthese-Containerimage für alle unterstützten Versionen und Gebietsschemata finden Sie im Microsoft Container Registry (MCR)-Syndikat. Es befindet sich im Repository azure-cognitive-services/speechservices/ und trägt den Namen neural-text-to-speech.

Der vollqualifizierte Containerimagename lautet mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. Fügen Sie entweder eine bestimmte Version oder zum Abrufen der aktuellen Version :latest an.

Version	`Path`
Neueste Version	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` Das Tag `latest` pullt das Gebietsschema `en-US` und die Stimme `en-us-arianeural`.
3.5.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.5.0-amd64-en-us-arianeural`

Alle Tags, mit Ausnahme von latest, haben das folgende Format und beachten die Groß-/Kleinschreibung:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

Die Tags sind der Einfachheit halber auch im JSON-Format verfügbar. Der Text enthält den Containerpfad und eine Liste mit Tags. Die Tags sind nicht nach Version sortiert, "latest" ist jedoch wie im folgenden Codeschnipsel gezeigt immer am Ende der Liste enthalten:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.5.0-amd64-uk-ua-ostapneural",
    "3.5.0-amd64-zh-cn-xiaochenneural-preview",
    "3.5.0-amd64-zh-cn-xiaohanneural",
    "3.5.0-amd64-zh-cn-xiaomoneural",
    "3.5.0-amd64-zh-cn-xiaoqiuneural-preview",
    "3.5.0-amd64-zh-cn-xiaoruineural",
    "3.5.0-amd64-zh-cn-xiaoshuangneural-preview",
    "3.5.0-amd64-zh-cn-xiaoxiaoneural",
    "3.5.0-amd64-zh-cn-xiaoyanneural-preview",
    "3.5.0-amd64-zh-cn-xiaoyouneural",
    "3.5.0-amd64-zh-cn-yunxineural",
    "3.5.0-amd64-zh-cn-yunyangneural",
    "3.5.0-amd64-zh-cn-yunyeneural",
    "latest"
  ]
}

Wichtig

Die Standardstimmen für die Sprachsynthese und der Standard-Sprachsynthese-Container wurden am 31. August 2021 eingestellt. Verwenden Sie stattdessen neuronale Stimmen mit dem neuronalen Sprachsynthese-Container, Version 3.0 und höher.

Ab dem 29. Februar 2024 werden die Sprachsynthese und der neuralen Sprachsynthese-Container, Versionen 2.19 und früher nicht mehr unterstützt. Weitere Informationen zum Aktualisieren Ihrer Anwendung finden Sie unter Migrieren von der Standardstimme zur vordefinierten neuronalen Stimme.

Abrufen des Containerimages mit dem Befehl „docker pull“

Sie müssen die Voraussetzungen erfüllen (einschließlich der Hardwareanforderungen). Sehen Sie sich auch die empfohlene Zuordnung von Ressourcen für die einzelnen Speech-Container an.

Verwenden Sie den Befehl docker pull, um ein Containerimage aus Microsoft Container Registry herunterzuladen:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

Wichtig

Das Tag latest pullt das Gebietsschema en-US und die Stimme en-us-arianeural. Weitere Gebietsschemata und Stimmen finden Sie unter Sprachsynthese-Containerimages.

Ausführen des Containers mit „docker run“

Verwenden Sie den Befehl docker run, um den Container auszuführen.

Neuronale Sprachsynthese
Nicht verbundene neuronale Sprachsynthese

Die folgende Tabelle zeigt die verschiedenen docker run-Parameter und die entsprechenden Beschreibungen:

Parameter	BESCHREIBUNG
`{ENDPOINT_URI}`	Der Endpunkt ist zur Messung und Abrechnung erforderlich. Weitere Informationen finden Sie unter Abrechnungsargumente.
`{API_KEY}`	Der API-Schlüssel ist erforderlich. Weitere Informationen finden Sie unter Abrechnungsargumente.

Wenn Sie den Sprachsynthese-Container ausführen, konfigurieren Sie Port, Arbeitsspeicher und CPU gemäß den Anforderungen und Empfehlungen für Sprachsynthese-Container.

Hier sehen Sie einen Beispielbefehl docker run mit Platzhalterwerten. Sie müssen die Werte ENDPOINT_URI und API_KEY angeben:

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Dieser Befehl:

Führt einen neuronalen Sprachsynthese-Container aus dem Containerimage aus.
Ordnet 6 CPU-Kerne und 12 GB Arbeitsspeicher zu.
Macht den TCP-Port 5000 verfügbar und ordnet eine Pseudo-TTY-Verbindung für den Container zu.
Entfernt den Container automatisch, nachdem er beendet wurde. Das Containerimage ist auf dem Hostcomputer weiterhin verfügbar.

Um nicht (mit dem Internet) verbundene Container auszuführen, müssen Sie dieses Anforderungsformular übermitteln und auf die Genehmigung warten. Weitere Informationen zur Anwendung und zum Erwerb eines Mindestabnahmeplans für den Einsatz von Containern in nicht verbundenen Umgebungen finden Sie unter Verwenden von Containern in nicht verbundenen Umgebungen in der Dokumentation zu Azure KI Services.

Wenn Sie die Genehmigung erhalten haben, den Container ohne Internetverbindung auszuführen, verwenden Sie die im folgenden Beispiel mit Platzhalterwerten gezeigte Formatierung des Befehls docker run. Ersetzen Sie diese Platzhalterwerte durch eigene Werte.

Der Parameter DownloadLicense=True in Ihrem docker run-Befehl lädt eine Lizenzdatei herunter, die es Ihrem Docker-Container ermöglicht, auch ohne Internetverbindung zu arbeiten. Sie enthält auch ein Ablaufdatum, nach dem die Lizenzdatei nicht mehr für die Ausführung des Containers gültig ist. Sie können eine Lizenzdatei nur mit dem entsprechenden Container verwenden, für den Sie eine Genehmigung erhalten haben. Sie können beispielweise keine Lizenzdatei für einen speech-to-text-Container mit einem neural-text-to-speech-Container verwenden.

Platzhalter	BESCHREIBUNG
`{IMAGE}`	Das Containerimage, das Sie verwenden möchten. Beispiel: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	Der Pfad, in den die Lizenz heruntergeladen und eingebunden wird. Beispiel: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	Der Endpunkt für Ihre Service Request-Authentifizierung. Sie finden ihn im Azure-Portal auf der Seite Key and endpoint (Schlüssel und Endpunkt) Ihrer Ressource. Beispiel: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Der Schlüssel für Ihre Speech-Ressource. Sie finden ihn im Azure-Portal auf der Seite Key and endpoint (Schlüssel und Endpunkt) Ihrer Ressource.
`{CONTAINER_LICENSE_DIRECTORY}`	Speicherort des Lizenzordners im lokalen Dateisystem des Containers. Beispiel: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Nachdem die Lizenzdatei heruntergeladen wurde, können Sie den Container in einer nicht verbundenen Umgebung ausführen. Das folgende Beispiel zeigt die Formatierung des zu verwendenden docker run-Befehls mit Platzhalterwerten. Ersetzen Sie diese Platzhalterwerte durch eigene Werte.

Unabhängig davon, wo der Container ausgeführt wird, muss die Lizenzdatei in den Container eingebunden und der Speicherort des Lizenzordners im lokalen Dateisystem des Containers muss mit Mounts:License= angegeben werden. Außerdem muss eine Ausgabeeinbindung angegeben werden, sodass Einträge für die Abrechnung der Nutzung geschrieben werden können.

Platzhalter	Wert	Format oder Beispiel
`{IMAGE}`	Das Containerimage, das Sie verwenden möchten. Beispiel: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	Die geeignete Größe des Arbeitsspeichers, der für Ihren Container zugeordnet werden soll. Beispiel: `4g`
`{NUMBER_CPUS}`	Die geeignete Anzahl von CPUs, die für Ihren Container zugeordnet werden soll. Beispiel: `4`
`{LICENSE_MOUNT}`	Der Pfad, in dem sich die Lizenz befindet und eingebunden ist. Beispiel: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	Der Ausgabepfad für die Protokollierung. Beispiel: `/host/output:/path/to/output/directory` Weitere Informationen finden Sie unter Nutzungsdatensätze in der Dokumentation zu Azure KI Services.
`{CONTAINER_LICENSE_DIRECTORY}`	Speicherort des Lizenzordners im lokalen Dateisystem des Containers. Beispiel: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Speicherort des Ausgabeordners im lokalen Dateisystem des Containers. Beispiel: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Speech-Container bieten ein Standardverzeichnis, in das die Lizenzdatei und das Abrechnungsprotokoll zur Laufzeit geschrieben werden. Die Standardverzeichnisse lauten /license bzw. /output.

Wenn Sie diese Verzeichnisse mit dem Befehl docker run -v in den Container einbinden, stellen Sie sicher, dass für das Verzeichnis des lokalen Computers user:group nonroot:nonroot als Besitzer festgelegt ist, bevor Sie den Container ausführen.

Hier ist ein Beispielbefehl zum Festlegen des Besitzes der Datei bzw. des Verzeichnisses.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Weitere Informationen zur Verwendung von docker run mit Speech-Containern finden Sie unter Installieren und Ausführen von Docker-Containern für die APIs des Speech-Diensts.

Verwenden des Containers

Speech-Container bieten websocketbasierte Abfrageendpunkt-APIs, auf die über das Speech SDK und die Speech-Befehlszeilenschnittstelle (Command Line Interface, CLI) zugegriffen wird. Standardmäßig verwenden das Speech SDK und die Speech-CLI den öffentlichen Speech-Dienst. Um den Container verwenden zu können, müssen Sie die Initialisierungsmethode ändern.

Wichtig

Wenn Sie den Speech-Dienst mit Containern verwenden, müssen Sie die Hostauthentifizierung verwenden. Wenn Sie den Schlüssel und die Region konfigurieren, werden Anforderungen an den öffentlichen Speech-Dienst gesendet. Die Ergebnisse des Speech-Diensts sind möglicherweise nicht wie erwartet. Anforderungen von nicht verbundenen Containern schlagen fehl.