定型自訂神經語音的資料

發行項
09/20/2024

當您準備好為應用程式建立自訂文字轉換語音的語音時，第一個步驟是收集音訊錄製和相關聯的腳本，以開始定型語音模型。語音服務會使用此資料來建立調整過的獨特語音，以符合錄製中的語音。在定型語音之後，您就可以開始在應用程式中合成語音。

提示

若要建立語音以供生產環境使用，建議您使用專業錄音室和配音人員。如需詳細資訊，請參閱錄製語音樣本來建立自訂神經語音。

定型資料的類型

語音定型資料集包含音訊錄製，以及具有相關聯謄寫的文字檔。每個音訊檔案都應該包含單一語句 (單一句子或對話系統的單一回合)，且長度不超過15秒。

在某些情況下，您可能尚未準備好正確的資料集。您可以使用可用的音訊檔案、簡短或冗長，搭配文字記錄或不使用文字記錄來測試自訂神經語音定型。

下表列出資料類型，以及如何使用這些資料類型來建立自訂文字轉換語音語音模型。

資料類型	描述	使用時機	需要額外處理
個別語句 + 相符的文字記錄	音訊檔案 (.wav) 的集合 (.zip) 作為單一語句。每個音訊檔案的長度應為 15 秒或更短，並與格式化的文字記錄 (.txt) 配對。	具有相符文字記錄的專業人員錄製	準備定型。
長音訊 + 文字記錄	一個未分段且較長的音訊檔案 (最多1,000 個長於 20 秒的.wav 或 .mp3 音訊檔案) 集合 (.zip)，與一個包含所有口語記錄集合 (.zip) 配對。	您有音訊檔案和相符的文字記錄，但是這些資訊不會分成語句。	分割 (使用批次謄寫)。需要時的音訊格式轉換。
純音訊 (預覽)	不包含文字記錄的音訊檔案 (.wav 或 .mp3，最多1,000 個音訊檔案) 集合 (.zip)。	您只有音訊檔案，沒有文字記錄。	分割 + 產生文字記錄 (使用批次謄寫)。需要時的音訊格式轉換。

應該依類型將檔案分組至資料集，並上傳為 ZIP 檔案。每個資料集只能包含單一資料類型。

注意

針對標準訂用帳戶 (S0) 使用者，每個訂用帳戶允許匯入的資料集數目上限為 500 個 zip 檔案。

個別語句 + 相符的文字記錄

您可以透過兩種方式來準備個別語句和相符文字記錄的錄製。撰寫指令碼並由語音配音員朗讀，或使用公開提供的音訊並謄寫為文字。如果您採用第二種方式，請編輯音訊檔案中不流利的情況，例如「嗯」及其他補白音、口吃、喃喃自語或錯誤發音。

若要產生良好的語音模型，請在具備高品質麥克風的安靜房間內進行錄音。一致的音量、讀出速率、讀出音調和易懂的語音表達方式是不可或缺的一部分。

如需資料格式範例，請參閱 GitHub 上的範例訓練集。範例訓練集包含範例指令碼和相關聯的音訊。

個別語句 + 相符文字記錄的音訊資料

每個音訊檔案都應該包含單一語句 (單一句子或對話系統的單一回合)，且長度不超過15秒。所有檔案必須採用相同說出口的語言。不支援多國語言自訂文字轉換語音的語音，但是中英文雙語除外。每個音訊檔案必須擁有唯一的檔案名稱，副檔名為 .wav。

準備音訊時，請遵循這些指導方針。

屬性	值
File format	RIFF (.wav)，群組為 .zip 檔案
File name	Windows OS 支援的檔案名稱字元，副檔名為 .wav。不允許 `\ / : * ? " < > \\|` 字元。其不能以空格開頭或結尾，而且不能以點開頭。不允許重複的檔案名稱。
取樣率	建立自訂神經語音時，需要 24,000 Hz。
樣本格式	PCM，至少 16 位元
音訊長度	少於 15 秒
封存格式	.zip
封存大小上限	2048 MB

注意

自訂神經語音的預設取樣率為 24,000 Hz。取樣率低於 16,000 Hz 的音訊檔將會被拒絕。如果 .zip 檔案包含不同取樣率的 .wav 檔案，將只會匯入等於或高於 16,000 Hz 的檔案。取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz，以定型神經語音。建議您針對定型資料使用 24,000 Hz 的取樣率。

個別語句 + 相符文字記錄的轉譯資料

謄寫檔案是純文字檔案。使用這些指導方針來準備您的謄寫。

屬性	值
File format	純文字 (.txt)
編碼格式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。對於 zh-CN，不支援 ANSI 和 ASCII 編碼。
每一行的語句數目	一個 - 謄寫檔案的每一行都應包含其中一個音訊檔案的名稱，然後後面接著相對應的謄寫。您必須使用索引標籤 (\t) 來分隔檔案名稱和謄寫。
檔案大小上限	2048 MB

以下是說明如何在一個 .txt 檔案中以語句逐一組織文字記錄的範例:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

文字記錄必須是其對應音訊 100% 的正確謄寫。文字記錄中的錯誤會在定型期間導致品質損失。

長音訊 + 文字記錄 (預覽)

注意

對於 [長音訊 + 文字記錄 (預覽)]，僅支援這些語言：中文 (中文，簡體)、英文 (印度)、英文 (英國)、英文 (美國)、法文 (法國)、德文 (德國)、義大利文 (義大利)、日文 (日本)、葡萄牙文 (巴西) 和西班牙文 (墨西哥)。

在某些情況下，您可能沒有可用的分割音訊。 Speech Studio 可協助您分割長音訊檔案並建立轉譯。長音訊分割服務會使用語音轉換文字的批次謄寫 API 功能。

在處理分割期間，您的音訊檔案和文字記錄也會傳送到自訂語音服務，以精簡辨識模型，讓您的資料可以改善精確度。此流程期間不會保留任何資料。完成分割之後，只會儲存語句分割及其對應的文字記錄，供您下載和定型。

注意

這項服務將依您的語音轉文字訂用帳戶使用量向您收費。只有標準 (S0) 語音資源支援長音訊分割服務。

長音訊 + 文字記錄的音訊資料

準備音訊以進行分割時，請遵循這些指導方針。

屬性	值
File format	RIFF (.wav) 或 .mp3，分組為 .zip 檔案
File name	Windows OS 支援的檔案名稱字元，副檔名為 .wav。不允許 `\ / : * ? " < > \\|` 字元。其不能以空格開頭或結尾，而且不能以點開頭。不允許重複的檔案名稱。
取樣率	建立自訂神經語音時，需要 24,000 Hz。
樣本格式	RIFF(.wav): PCM，至少 16 位元。 mp3: 至少 256 KBps 位元速率。
音訊長度	長度超過 20 秒
封存格式	.zip
封存大小上限	2048 MB，最多包含 1,000 個音訊檔案

注意

自訂神經語音的預設取樣率為 24,000 Hz。取樣率低於 16,000 Hz 的音訊檔將會被拒絕。取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz，以定型神經語音。建議您針對定型資料使用 24,000 Hz 的取樣率。

所有音訊檔案都應該分組成 zip 檔案。可以將 .wav 檔案和 .mp3 檔案放入相同的 zip 檔案中。例如，您可以在同一個 zip 檔案中上傳名為 'kingstory.wav' 的 45 秒音訊檔案，以及另一個名為 'queenstory.mp3' 的 200 秒長音訊檔案。在處理之後，所有 .mp3 檔案都會轉換成 .wav 格式。

長音訊 + 文字記錄的轉譯資料

文字記錄必須針對下表所列的規格做好準備。每個音訊檔案都必須與文字記錄相符。

屬性	值
File format	純文字 (.txt)，分組為 .zip
File name	使用與相符音訊檔案相同的名稱
編碼格式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。對於 zh-CN，不支援 ANSI 和 ASCII 編碼。
每一行的語句數目	無限制
檔案大小上限	2048 MB

這種資料類型中的所有文字記錄檔案都應分組為 zip 檔案。例如，您可以在同一個 zip 檔案中上傳名為 'kingstory.wav' 的 45 秒音訊檔案，以及另一個名為 'queenstory.mp3' 的 200 秒長音訊檔案。您需要上傳另一個 zip 檔案，其中包含一個名為‘kingstory.txt’和另一個名為‘queenstory.txt’的兩個文字記錄。您會在每個純文字檔案中提供對應音訊的完全正確謄寫。

成功上傳資料集之後，我們會協助您根據提供的文字記錄，將音訊檔案分割成語句。您可以藉由下載資料集來檢查分段的語句和相符的文字記錄。系統會自動將唯一識別碼指派給分割語句。請務必確定您提供的文字記錄 100% 精確。文字記錄中的錯誤可能會降低音訊分割期間的精確度，並會在稍後的定型階段導致品質損失。

純音訊 (預覽)

注意

對於 [純音訊 (預覽)]，僅支援這些語言：中文 (中文，簡體)、英文 (印度)、英文 (英國)、英文 (美國)、法文 (法國)、德文 (德國)、義大利文 (義大利)、日文 (日本)、葡萄牙文 (巴西) 和西班牙文 (墨西哥)。

如果您沒有音訊錄製的謄寫，請使用 [僅限音訊] 選項來上傳您的資料。我們的系統可協助您分割及謄寫您的音訊檔案。請記住，這項服務會依您的語音轉換文字訂用帳戶使用量向您收費。

準備音訊時，請遵循這些指導方針。

注意

長音訊分割服務將利用語音轉換文字的批次謄寫功能，這項功能只支援標準訂用帳戶 (S0) 使用者。

屬性	值
File format	RIFF (.wav) 或 .mp3，分組為 .zip 檔案
File name	Windows OS 支援的檔案名稱字元，副檔名為 .wav。不允許 `\ / : * ? " < > \\|` 字元。其不能以空格開頭或結尾，而且不能以點開頭。不允許重複的檔案名稱。
取樣率	建立自訂神經語音時，需要 24,000 Hz。
樣本格式	RIFF(.wav)：PCM，至少 16 位元 mp3: 至少 256 KBps 位元速率。
音訊長度	無限制
封存格式	.zip
封存大小上限	2048 MB，最多包含 1,000 個音訊檔案

注意

自訂神經語音的預設取樣率為 24,000 Hz。取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz，以定型神經語音。建議您針對定型資料使用 24,000 Hz 的取樣率。

所有音訊檔案都應該分組成 zip 檔案。成功上傳資料集之後，「語音」服務會協助您根據我們的語音批次謄寫服務，將音訊檔案分割成語句。系統會自動將唯一識別碼指派給分割語句。會透過語音辨識產生相符的文字記錄。在處理之後，所有 .mp3 檔案都會轉換成 .wav 格式。您可以藉由下載資料集來檢查分段的語句和相符的文字記錄。

共用方式為