自訂神經語音精簡版 (預覽)

Azure AI 語音提供兩種自訂神經語音 (CNV) 專案類型:CNV 精簡版與 CNV 專業版。

  • 自訂神經語音 (CNV) 專業版可讓您上傳透過專業錄製工作室收集的訓練資料,並建立與人類樣本幾乎無異的高品質語音。 CNV 專業版存取受限於資格和使用準則。 要求輸入表單的存取權。
  • 自訂神經語音 (CNV) 精簡版是公開預覽中的專案類型。 您可以先示範及評估自訂神經語音,再投資專業錄製,以建立高品質的語音。 用於示範和評估目的並不需要任何應用程式。 然而 Microsoft 會限制並選取錄製內容和測試樣本,以便與 CNV 精簡版搭配使用。 您必須申請 CNV 專業版的完整存取權,才能部署及使用 CNV 精簡版模型以供商業用途使用。 在那樣的情況下,請透過填寫表單要求存取權。

使用 CNV 精簡版專案,您可以閱讀 Microsoft 提供的 20-50 個預先定義的腳本,在線上錄製語音。 記錄至少 20 個樣本之後,您就可以開始定型模型。 成功定型模型之後,您可以檢閱模型,並查看使用另一組預先定義的腳本所產生的 20 個輸出樣本。

請參閱自訂神經語音的支援語言

比較專案類型

下表摘要說明 CNV 精簡版與 CNV 專業版專案類型之間的主要差異。

項目 精簡 (預覽版) Pro
目標案例 示範或評估 聊天機器人的品牌和角色聲音,或音訊內容閱讀等專業案例。
訓練資料 使用 Speech Studio 線上錄製 使用自己的資料。 建議在專業工作室中錄製。
用於錄製的腳本 於 Speech Studio 中提供 使用符合使用案例的自備腳本。 Microsoft 提供參考的腳本範例 (英文)。
必要的資料大小 20-50 個語句 300-2,000 個語句
定型時間 計算時數少於一小時 大約 20-40 個計算時數
語音品質 中等品質 高品質
可用性 任何人都可以線上錄製樣本,並定型模型以供示範和評估使用。 如果您想部署 CNV 精簡版模型以供商務使用,則需要自訂神經語音的完整存取權。 資料上傳不受限制,但您只能在核准存取之後訓練和部署 CNV 專業版模型。 CNV 專業版存取受限於資格和使用準則。 要求輸入表單的存取權。
定價 CNV 精簡版和 CNV 專業版專案的每單位價格都相同。 請參閱此處的定價詳細資料 (英文)。 CNV 精簡版和 CNV 專業版專案的每單位價格都相同。 請參閱此處的定價詳細資料 (英文)。

建立自訂神經語音精簡版專案

若要建立自訂神經語音精簡版專案,請執行下列步驟:

  1. 登入 Speech Studio

  2. 選取要處理的訂用帳戶和語音資源。

  3. 選取自訂語音>建立專案

  4. 選取 [自訂神經語音精簡版] > [下一步]。 若想要改為建立自訂神經語音專業版專案,請參閱建立自訂神經語音的專案

  5. 依照精靈提供的指示建立您的專案。

    重要

    CNV 精簡版專案會在 90 天後到期,除非提交語音配音員錄製的口頭聲明

  6. 依名稱選取新專案,或選取 [移至專案]。 您會在左側面板看到這些功能表項目:[錄製和建置]、[檢閱模型] 和 [部署模型]

    螢幕擷取畫面:CNV 精簡版錄製、訓練、測試和部署工作流程概觀。

錄製和建置 CNV 精簡版模型

使用線上提供的腳本錄製至少 20 個 (最多 50 個) 語音樣本。 在此錄製的語音樣本將用來建立合成語音版本。

注意

自訂神經語音訓練目前僅在部分區域提供使用。 如需詳細資訊,請參閱區域資料表中的註腳。

以下是協助您錄製語音樣本的一些提示:

  • 使用良好的麥克風。 使用高品質麥克風提高樣本的清晰度。 說話距離麥克風約 8 英吋,以避免嘴巴發出的雜音。
  • 避免背景雜音。 在無背景雜音或回音的安靜房間中錄製。
  • 放鬆並自然說話。 在朗讀句子時,讓自己表達情緒。
  • 一次錄製。 為了保持一致的能量,請以一個工作階段錄製所有句子。
  • 正確發音每個字,並清楚說出。

若要錄製和建置 CNV 精簡版模型,請執行下列步驟:

  1. 選取 [自訂語音] > 您的專案名稱 > [記錄和建置]
  2. 選取開始使用
  3. 仔細閱讀語音配音員使用規定。 選取核取方塊以確認使用規定。
  4. 選取 [接受]
  5. 按下麥克風圖示以啟動雜音檢查。 此噪音檢查只需要幾秒鐘的時間,而且您不需要在這段期間說話。
  6. 如果偵測到雜音,您可以選取 [再檢查一次] 來重複雜音檢查。 如果未偵測到任何雜音,您可以選取 [完成] 以繼續進行下一個步驟。 螢幕擷取畫面:偵測到噪音時的噪音檢查結果。
  7. 檢閱錄製提示,然後選取 [了解]。 為獲得最佳結果,請前往無背景雜音的安靜區域,再錄製語音樣本。
  8. 按下麥克風圖示以開始錄製。 螢幕擷取畫面:錄製樣本儀表板。
  9. 按下停止圖示以停止錄製。
  10. 檢閱品質計量。 錄製每個樣本之後,請先檢查其品質計量,再繼續進行下一個錄製。
  11. 錄製更多樣本。 雖然您可以只使用 20 個樣本建立模型,但建議您錄製高達 50 個,以獲得更好的品質。
  12. 選取 [訓練模型] 以開始訓練程序。

訓練程序大約需要一個計算時數。 您可以在 [檢閱模型] 頁面中檢查訓練程序的進度。

檢閱模型

若要檢閱 CNV 精簡版模型,並聆聽您自己的合成語音,請執行下列步驟:

  1. 選取 [自訂語音] > 專案名稱 > [檢閱模型]。 您可以在這裡檢閱語音模型名稱、模型語言、樣本資料大小和訓練進度。 語音名稱是由您的專案名稱後面接著 "Neural" 一字所組成。
  2. 選取語音模型名稱以檢閱模型詳細資料,並聆聽樣本文字轉換語音結果。
  3. 選取播放圖示以聆聽您讀每個腳本的語音。 螢幕擷取畫面:檢閱樣本輸出儀表板。

提交口頭聲明

需要語音配音員錄製的口頭聲明,才能為商務用途部署模型

若要提交語音配音員的口頭聲明,請執行下列步驟:

  1. 選取 [自訂語音] > 專案名稱 > [部署模型] > [管理語音配音員]螢幕擷取畫面:錄製語音配音員同意儀表板。
  2. 選取該模型。
  3. 輸入語音配音員姓名和公司名稱。
  4. 閱讀並錄製聲明。 選取麥克風圖示以開始錄製。 選取停止圖示以停止錄製。
  5. 選取 [提交] 以提交聲明。
  6. 在儀表板底部的腳本資料表中檢查處理狀態。 一旦狀態為 [成功],您就可以部署模型

部署模型

若要部署語音模型並在應用程式中使用,您必須取得自訂神經語音的完整存取權。 要求輸入表單的存取權。 在大約 10 個工作天內,您會收到電子郵件,信中會告知核准狀態。 也需要語音配音員錄製的口頭聲明,才能為商務用途部署模型。

若要部署 CNV 精簡版模型,請執行下列步驟:

  1. 選取 [自訂語音] > 您的專案名稱 > [部署模型] > [部署模型]
  2. 選取語音模型名稱,然後選取 [下一步]
  3. 輸入您的端點名稱和描述,然後選取 [下一步]
  4. 選取核取方塊以同意使用規定,然後選取 [下一步]
  5. 選取 [部署] 以部署模型。

之後,您將可以使用 CNV 精簡版語音模型,就像使用 CNV 專業版語音模型一樣。 例如,您可以在建立端點之後暫止或繼續端點,限制支出並節省未使用的資源。 您也可以在 Speech Studio音訊內容建立工具中存取語音。

下一步