語音啟用

發行項
05/13/2024

注意

本主題主要指的是我們的取用者體驗，這些體驗目前在 Windows 10 中提供（版本 1909 和更早版本）如需詳細資訊，請參閱 Windows 和 Teams 中 Cortana 的支持結束。

Cortana 個人助理技術首次在 2013 年 Microsoft BUILD 開發人員大會上展示。 Windows 語音平臺可用來支援 Windows 10 中的所有語音體驗，例如 Cortana 和聽寫。語音啟用是一項功能，可讓使用者從各種裝置電源狀態叫用語音辨識引擎，方法是說出特定片語 -“Hey Cortana”。若要建立支援語音啟用技術的硬體，請檢閱本主題中的資訊。

注意

實作語音啟用是一個重要的專案，而且是由SoC廠商完成的工作。 OEM 可以連絡其 SoC 廠商，以取得其 SoC 實作語音啟用的相關信息。

Cortana 終端用戶體驗

若要瞭解 Windows 中可用的語音互動體驗，請檢閱這些主題。

主題	說明
什麼是 Cortana？	提供 Cortana 的概觀和使用方向

“Hey Cortana” 語音啟用和「瞭解我的聲音」簡介

Hey Cortana“ Voice Activation

「Hey Cortana」語音啟用（VA）功能可讓使用者使用其語音，在作用中內容之外快速參與 Cortana 體驗（也就是目前在螢幕上的內容）。使用者通常想要能夠立即存取體驗，而不需要實際互動觸控裝置。對於手機用戶來說，這可能是因為駕駛在車上，並引起他們的注意和手與操作車輛。對於 Xbox 使用者，這可能是因為不想尋找並連線控制器。對於計算機用戶來說，這可能是因為快速存取體驗，而不需要執行多個滑鼠、觸控和/或鍵盤動作，例如廚房中的計算機。

語音啟用一律會透過預先定義的關鍵片語或「啟用片語」來接聽語音輸入。關鍵片語可以自行表達（“Hey Cortana”）作為分段命令，或接著語音動作，例如“Hey Cortana，我的下一個會議在哪裡？，鏈結的命令。

關鍵詞偵測一詞，描述硬體或軟體偵測關鍵詞的偵測。

只有在說出 Cortana 關鍵詞時，才會啟用關鍵詞，Cortana 會啟動並播放 EarCon 音效，以指出它已進入接聽模式。

鏈 結的命令 描述在關鍵詞之後立即發出命令的能力（例如“Hey Cortana，呼叫 John”），並讓 Cortana 開始（如果尚未啟動），並遵循命令（使用 John 啟動電話）。

此圖說明鏈結和僅限關鍵詞啟用。

此圖顯示鏈結和僅限關鍵詞啟用與音訊緩衝區和時間序列之間的差異。

Microsoft 提供 OS 預設關鍵詞 spotter（軟體關鍵詞 spotter），用來確保硬體關鍵詞偵測的品質，並在硬體關鍵詞偵測不存在或無法使用的情況下提供 Hey Cortana 體驗。

「瞭解我的聲音」功能

「瞭解我的聲音」功能可讓用戶訓練 Cortana 辨識其獨特的語音。用戶選取 [瞭解如何在 Cortana 設定] 畫面中說出「Hey Cortana」，即可完成此作業。然後，用戶會重複六個精心選擇的片語，以提供足夠的各種語音模式，以識別使用者語音的唯一屬性。

硬體關鍵詞 Spotter 和喚醒語音功能的 Cortana 桌面設定螢幕快照。

當語音啟用與「瞭解我的語音」配對時，這兩種演算法會一起運作，以減少錯誤的啟用。對於會議室案例來說，這特別有價值，其中一個人在充滿裝置的房間里說“Hey Cortana”。此功能僅適用於 Windows 10 版本 1903 和更早版本。

語音啟用是由關鍵詞 Spotter （KWS）提供，當偵測到關鍵片語時會做出反應。如果 KWS 是從低電源狀態喚醒裝置，則解決方案稱為「語音喚醒」（WoV）。如需詳細資訊，請參閱語音喚醒。

詞彙詞彙

此詞彙摘要說明與語音啟用相關的詞彙。

術語	範例/定義
分段命令	範例：Hey Cortana <暫停，等待耳環> 天氣為何？這有時稱為「雙槍命令」或「僅限關鍵詞」
鏈結命令	範例：Hey Cortana 天氣是什麼？這有時稱為「單次命令」
語音啟用	提供預先定義啟用金鑰密碼之關鍵詞偵測的案例。例如，“Hey Cortana” 是 Microsoft Voice Activation 案例。
WoV	語音喚醒 – 啟用從螢幕關閉、電源較低狀態到全電源狀態螢幕的語音啟用技術。
來自新式待命的 WoV	從新式待命（S0ix）螢幕關閉狀態到全電源（S0）狀態的螢幕喚醒語音。
新式待命	Windows 低功率閑置基礎結構 - Windows 10 中連線待命（CS）的後續任務。新式待命的第一個狀態是螢幕關閉時。最深的睡眠狀態是在 DRIPS/Resiliency 中。如需詳細資訊，請參閱新式待命
KWS	關鍵詞發現器 – 提供偵測 “Hey Cortana” 的演算法
SW KWS	軟體關鍵詞 Spotter – 在主機上執行的 KWS 實作（CPU）。對於「Hey Cortana」，SW KWS 會包含在 Windows 中。
HW KWS	硬體卸除關鍵詞 Spotter – 在硬體上執行卸除的 KWS 實作。
高載緩衝區	迴圈緩衝區，用來儲存在 KWS 偵測時可能會「高載」的 PCM 數據，以便包含觸發 KWS 偵測的所有音訊。
關鍵詞偵測器 OEM 配接器	驅動程式層級填充碼，可讓已啟用 WoV 的 HW 與 Windows 和 Cortana 堆棧通訊。
模型	KWS 演算法所使用的原音模型數據檔。數據檔是靜態的。模型會當地語系化，每個地區設定一個。

整合 Hardware 關鍵詞 Spotter

若要實作硬體關鍵詞 Spotter （HW KWS） SoC 廠商，必須完成下列工作。

根據本主題稍後所述的SYSVAD範例建立自定義關鍵詞偵測器。您會在 COM DLL 中實作這些方法，如關鍵詞偵測器 OEM 配接器介面中所述。
實作 WAVERT 增強功能中所述的 WAVE RT 增強功能。
提供 INF 檔案專案，以描述用於關鍵詞偵測的任何自定義 API。
檢閱音訊裝置建議中的硬體建議和測試指引。本主題提供用於 Microsoft 語音平臺之音訊輸入裝置的設計與開發指引和建議。
支援分段和鏈結的命令。
針對每個支援的 Cortana 地區設定支援「Hey Cortana」。
APOs （音訊處理物件）必須提供下列效果：
- Aec
- Agc
- NS
MFX APO 必須報告語音處理模式的效果。
APO 可能會以 MFX 的形式執行格式轉換。
APO 必須輸出下列格式：
- 16 kHz、mono、FLOAT。
選擇性地設計任何自定義 API，以增強音訊擷取程式。如需詳細資訊，請參閱 Windows 音訊處理物件。

硬體卸除關鍵詞 Spotter （HW KWS） WoV 需求

HW KWS WoV 在 S0 工作狀態和 S0 睡眠狀態也稱為新式待命期間受到支援。
S3 不支援 HW KWS WoV。

HW KWS 的 AEC 需求

針對 Windows 版本 1709
- 不需要支援 S0 睡眠狀態的 HW KWS WoV（新式待命）AEC。
- Windows 版本 1709 不支援 S0 工作狀態的 HW KWS WoV。
針對 Windows 版本 1803
- 支援 S0 工作狀態的 HW KWS WoV。
- 若要啟用 S0 工作狀態的 HW KWS WoV，APO 必須支援 AEC。

範例程式代碼概觀

音訊驅動程式有範例程序代碼，會在 GitHub 上實作語音啟用，做為 SYSVAD 虛擬音訊配接器範例的一部分。建議使用此程式代碼作為起點。此位置提供程序代碼。

https://github.com/Microsoft/Windows-driver-samples/tree/main/audio/sysvad/

如需SYSVAD範例音訊驅動程式的詳細資訊，請參閱範例音訊驅動程式。

關鍵詞辨識系統資訊

語音啟用音訊堆疊支援

啟用語音啟用的音訊堆疊外部介面可作為語音平臺和音訊驅動程式的通訊管線。外部介面分成三個部分。

關鍵字偵測器裝置驅動器介面（DDI） 。關鍵詞偵測器設備驅動器介面負責設定及武裝 HW 關鍵詞 Spotter （KWS）。驅動程式也會使用它來通知系統偵測事件。
關鍵詞偵測器 OEM 配接器 DLL。此 DLL 會實作 COM 介面，以調整驅動程式特定的不透明數據，以供 OS 用來協助進行關鍵詞偵測。
WaveRT 串流增強功能。增強功能可讓音訊驅動程式從關鍵詞偵測串流緩衝處理的音訊數據。

音訊端點屬性

音訊端點圖形建置通常會發生。圖表已準備好處理速度比即時擷取快。所擷取緩衝區上的時間戳維持為 true。具體來說，時間戳會正確反映過去擷取並緩衝的數據，而且現在會「暴增」。

藍牙略過音訊串流理論

驅動程式會像往常一樣公開其擷取裝置的 KS 篩選器。此篩選支持數個 KS 屬性和 KS 事件，以設定、啟用和發出偵測事件的訊號。篩選條件也包含識別為關鍵詞 Spotter （KWS）針腳的其他針腳處理站。此釘選可用來串流關鍵詞 Spotter 的音訊。

屬性如下︰

支援的關鍵詞類型 - KSPROPERTY_SOUNDDETECTOR_PATTERNS。這個屬性是由作業系統所設定，以設定要偵測到的關鍵詞。
關鍵詞模式 GUID 清單 - KSPROPERTY_SOUNDDETECTOR_SUPPORTEDPATTERNS。這個屬性可用來取得識別支援模式類型的 GUID 清單。
武裝 - KSPROPERTY_SOUNDDETECTOR_ARMED。這個讀取/寫入屬性只是布爾值狀態，指出偵測器是否武裝。 OS 會將此設定為參與關鍵詞偵測器。 OS 可以清除此專案以脫離。當已設定關鍵詞模式，以及偵測到關鍵詞之後，驅動程式會自動清除此情況。（OS 必須重新排列。
比對結果 - KSPROPERTY_SOUNDDETECTOR_MATCHRESULT。這個讀取屬性會在偵測發生之後保留結果數據。

偵測到關鍵詞時引發的事件是 KSEVENT_SOUNDDETECTOR_MATCHDETECTED 事件。

作業順序

系統啟動

OS 會讀取支援的關鍵詞類型，以確認其具有該格式的關鍵詞。
OS 會註冊偵測器狀態變更事件。
OS 會設定關鍵詞模式。
OS 會提供偵測器。

在接收 KS 事件時

司機解除探測器的武裝。
OS 會讀取關鍵詞偵測器狀態、剖析傳回的數據，並判斷偵測到的模式。
OS 會重新配置偵測器。

內部驅動程式和硬體作業

當偵測器處於武裝時，硬體可以在小型 FIFO 緩衝區中持續擷取和緩衝音訊數據。（此 FIFO 緩衝區的大小取決於本檔外部的需求，但通常為數百毫秒到數秒。偵測算法會在透過這個緩衝區串流的數據上運作。驅動程式和硬體的設計使得在驅動程式與硬體之間沒有互動，而且在偵測到關鍵詞之前，不會中斷「應用程式」處理器。這可讓系統在沒有其他活動的情況下達到較低的電源狀態。

當硬體偵測到關鍵詞時，會產生中斷。等候驅動程式服務中斷時，硬體會繼續將音訊擷取到緩衝區，確保關鍵詞遺失後不會遺失任何數據，並在緩衝限制內。

關鍵詞時間戳

偵測關鍵詞之後，所有語音啟用解決方案都必須緩衝所有口語關鍵詞，包括 250 毫秒的關鍵詞開頭之前。音訊驅動程式必須提供時間戳，以識別數據流中關鍵片語的開始和結尾。

為了支持關鍵詞開始/結束時間戳，DSP 軟體可能需要根據 DSP 時鐘在內部時間戳事件。偵測到關鍵詞之後，DSP 軟體會與驅動程式互動以準備 KS 事件。驅動程式和 DSP 軟體必須將 DSP 時間戳對應至 Windows 性能計數器值。執行這項操作的方法專屬於硬體設計。其中一個可能的解決方案是讓驅動程式讀取目前的性能計數器、查詢目前的 DSP 時間戳、再次讀取目前的性能計數器，然後估計性能計數器與 DSP 時間之間的相互關聯。然後，假設相互關聯，驅動程式可以將關鍵詞 DSP 時間戳對應至 Windows 性能計數器時間戳。

關鍵詞偵測器 OEM 配介面

OEM 提供 COM 物件實作，做為 OS 與驅動程式之間的媒介，協助計算或剖析透過KSPROPERTY_SOUNDDETECTOR_PATTERNS和KSPROPERTY_SOUNDDETECTOR_MATCHRESULT寫入和讀取音訊驅動程式的不透明數據。

COM物件的 CLSID 是KSPROPERTY_SOUNDDETECTOR_SUPPORTEDPATTERNS所傳回的偵測器模式類型 GUID。 OS 會呼叫 CoCreateInstance 傳遞模式類型 GUID，以具現化與關鍵詞模式類型相容的適當 COM 物件，並在物件的 IKeywordDetectorOemAdapter 介面上呼叫方法。

COM 線程模型需求

OEM 的實作可以選擇任何 COM 線程模型。

IKeywordDetectorOemAdapter

介面設計會嘗試讓物件實作保持無狀態。換句話說，實作應該不需要在方法呼叫之間儲存任何狀態。事實上，內部 C++ 類別可能不需要超出一般實作 COM 物件所需的任何成員變數。

方法

實作下列方法。

KEYWORDID

KEYWORDID 列舉可識別關鍵詞的片語文字/函式，也用於 Windows 生物特徵辨識服務配接器中。如需詳細資訊，請參閱生物特徵辨識架構概觀 - 核心平台元件

typedef enum  {
  KwInvalid              = 0,
  KwHeyCortana           = 1,
  KwSelect               = 2
} KEYWORDID;

KEYWORDSELECTOR

KEYWORDSELECTOR 結構是一組可唯一選取特定關鍵詞和語言的標識碼。

typedef struct
{
    KEYWORDID KeywordId;
    LANGID LangId;
} KEYWORDSELECTOR;

處理模型數據

靜態用戶獨立模型 - OEM DLL 通常會包含內建於 DLL 中的一些靜態用戶獨立模型數據，或包含在 DLL 的個別數據檔中。 GetCapabilities 例程所傳回的一組支援的關鍵詞標識碼將取決於此數據。例如，如果 GetCapabilities 傳回的支持關鍵詞標識符清單包含 KwHeyCortana，靜態用戶獨立模型數據會包含所有支持語言的 “Hey Cortana” （或其翻譯）的數據。

動態使用者相依模型 - IStream 提供隨機存取記憶體模型。 OS 會將 IStream 介面指標傳遞給 IKeywordDetectorOemAdapter 介面上的許多方法。 OS 會使用最多 1 MB 的數據，使用適當的記憶體來備份 IStream 實作。

OEM 會定義此記憶體內數據的內容和結構。其目的是要持續儲存由 OEM DLL 計算或擷取的使用者相依模型數據。

OS 可能會使用空的 IStream 呼叫介面方法，特別是如果用戶從未定型關鍵詞。 OS 會為每個使用者建立個別的 IStream 記憶體。換句話說，指定的 IStream 會儲存一個和一個使用者的模型數據。

OEM DLL 開發人員決定如何管理使用者獨立和使用者相依數據。不過，它絕不會儲存 IStream 外部的任何位置的用戶數據。根據目前方法的參數，一個可能的 OEM DLL 設計會在內部切換存取 IStream 和靜態使用者獨立數據。替代設計可能會在每個方法呼叫開始時檢查 IStream，如果尚未存在，請將靜態使用者獨立數據新增至 IStream，讓方法的其餘部分只存取所有模型數據的 IStream。

定型和操作音訊處理

如先前所述，定型UI流程會產生音訊串流中可用的完整語音豐富句子。每個句子都會個別傳遞至 IKeywordDetectorOemAdapter：：VerifyUserKeyword ，以確認它包含預期的關鍵詞且品質可接受。在UI收集並驗證所有句子之後，所有句子都會在IKeywordDetectorOemAdapter：：ComputeAndAddUserModelData 的一次呼叫中傳遞。

音訊會以獨特的方式處理語音啟用訓練。下表摘要說明語音啟用訓練與一般語音辨識使用方式之間的差異。

	語音訓練	語音辨識
模式	Raw	原始或語音
針	一般	KWS
音訊格式	32 位 float （Type = Audio， Subtype = IEEE_FLOAT，取樣率 = 16 kHz， bits = 32）	由OS音訊堆疊管理
麥克風	麥克風 0	陣列中的所有麥克風或單聲道

關鍵詞辨識系統概觀

此圖表提供關鍵詞辨識系統的概觀。

關鍵詞辨識系統的圖表，包括 Cortana、語音運行時間和語音啟用管理員元件。

關鍵詞辨識順序圖表

在這些圖表中，語音運行時間模組會顯示為「語音平臺」。如先前所述，Windows 語音平臺可用來支援 Windows 10 中的所有語音體驗，例如 Cortana 和聽寫。

在啟動期間，會使用 IKeywordDetectorOemAdapter：：GetCapabilities 收集功能。

啟動期間關鍵詞辨識的順序圖，顯示定型UX、語音平臺和OEM關鍵詞偵測器。

稍後當用戶選取「瞭解我的聲音」時，會叫用訓練流程。

「瞭解我的聲音」程式期間關鍵詞辨識的順序圖，其中顯示訓練 UX、語音平臺和 OEM 關鍵詞偵測器。

此圖表描述用於關鍵詞偵測的武裝程式。

關鍵詞偵測期間關鍵詞辨識的順序圖，其中顯示語音平臺、OEM 關鍵詞偵測器和音訊磁碟驅動器偵測器。

WAVERT 增強功能

Miniport 介面是定義為由 WaveRT 迷你埠驅動程序實作。這些介面提供方法來簡化音訊驅動程式、改善OS音訊管線效能和可靠性，或支援新的案例。已定義新的 PnP 裝置介面屬性，讓驅動程式提供其緩衝區大小條件約束的靜態表達式給 OS。

緩衝區大小

驅動程式會在 OS、驅動程式和硬體之間行動音訊數據時，在各種限制下運作。這些條件約束可能是由於在記憶體和硬體之間移動數據的實體硬體傳輸，以及/或因為硬體或相關聯的 DSP 內的訊號處理模組所造成。

HW-KWS 解決方案必須支援至少 100 毫秒和最多 200 毫秒的音訊擷取大小。

驅動程式會在具有 KS 串流針腳的 KSCATEGORY_AUDIO PnP 裝置介面上設定DEVPKEY_KsAudio_PacketSize_Constraints裝置屬性，以表示緩衝區大小限制。啟用 KS 篩選介面時，此屬性應保持有效且穩定。 OS 可以隨時讀取此值，而不需要開啟驅動程式的句柄，並在驅動程式上呼叫。

DEVPKEY_KsAudio_PacketSize_Constraints

DEVPKEY_KsAudio_PacketSize_Constraints屬性值包含 描述實體硬體條件約束的KSAUDIO_PACKETSIZE_CONSTRAINTS 結構（亦即由於將數據從 WaveRT 緩衝區傳輸至音訊硬體的機制）。結構包含 0 個以上的 KSAUDIO_PACKETSIZE_PROCESSINGMODE_CONSTRAINT 結構數位，描述任何訊號處理模式特有的條件約束。驅動程式會在呼叫 PcRegisterSubdevice 之前設定此屬性，否則會為其串流釘選啟用其 KS 篩選介面。

IMiniportWaveRTInputStream

驅動程式會實作此介面，以便更妥善地協調從驅動程式到OS的音訊數據流。如果擷取數據流上有此介面可用，則OS會使用此介面上的方法來存取 WaveRT 緩衝區中的數據。如需詳細資訊， 請參閱 IMiniportWaveRTInputStream：：GetReadPacket

IMiniportWaveRTOutputStream

WaveRT 迷你埠選擇性地實作此介面，以建議從 OS 寫入進度，並傳回精確的數據流位置。如需詳細資訊，請參閱 IMiniportWaveRTOutputStream：：SetWritePacket、IMiniportWaveRTOutputStream：：GetOutputStreamPresentationPosition 和 IMiniportWaveRTOutputStream：：GetPacketCount。

性能計數器時間戳

數個驅動程式例程會傳回 Windows 性能計數器時間戳，以反映裝置擷取或呈現樣本的時間。

在具有複雜 DSP 管線和訊號處理的裝置中，計算精確的時間戳可能具有挑戰性，而且應該深思熟慮地完成。時間戳不應只反映樣本傳送到OS或從OS傳送到 DSP 的時間。

在 DSP 中，使用一些內部的 DSP 時鐘來追蹤範例時間戳。
在驅動程式與 DSP 之間，計算 Windows 性能計數器與 DSP 時鐘之間的相互關聯。程式的範圍可以從非常簡單（但不太精確）到相當複雜或新穎（但更精確）。
因訊號處理演算法或管線或硬體傳輸而造成任何持續延遲的因素，除非另有考慮這些延遲。

高載讀取作業

本節說明高載讀取的OS和驅動程序互動。只要驅動程式支援以封包為基礎的串流 WaveRT 模型，包括 IMiniportWaveRTInputStream：：GetReadPacket 函式，就會在語音啟用案例之外發生高載讀取。

討論兩個高載範例讀取案例。在一個案例中，如果迷你埠支援針腳類別 KSNODETYPE_AUDIO_KEYWORDDETECTOR ，則驅動程式會在偵測到關鍵詞時開始擷取和內部緩衝數據。在另一個案例中，如果OS呼叫IMiniportWaveRTInputStream：：GetReadPacket，則驅動程式可以選擇性地在 WaveRT 緩衝區外部緩衝數據。

若要在轉換至KSSTATE_RUN之前擷取的高載數據，驅動程式必須保留精確的範例時間戳資訊，以及緩衝擷取的數據。時間戳會識別擷取樣本的取樣瞬間。

數據流轉換成KSSTATE_RUN之後，驅動程式會立即設定緩衝區通知事件，因為它已經有可用的數據。
在此事件中，OS 會呼叫 GetReadPacket（）以取得可用數據的相關信息。

a. 驅動程式會傳回有效擷取數據的封包號碼（從 KSSTATE_STOP 轉換到KSSTATE_RUN之後的第一個封包 0），OS 可以從中衍生 WaveRT 緩衝區內的封包位置，以及相對於數據流開頭的封包位置。

b. 驅動程式也會傳回性能計數器值，這個值會對應至封包中第一個樣本的取樣瞬間。請注意，此性能計數器值可能相對較舊，取決於硬體或驅動程式內已緩衝處理多少擷取數據（在 WaveRT 緩衝區之外）。

c. 如果有更多未讀取的緩衝數據可供驅動程式使用：i。立即將該數據傳輸到 WaveRT 緩衝區的可用空間（也就是從 GetReadPacket 傳回之封包未使用的空間）、針對 MoreData 傳回 true，並在從這個例程傳回之前設定緩衝區通知事件。或者，ii. 程序硬體將下一個封包高載到 WaveRT 緩衝區的可用空間、針對 MoreData 傳回 false，稍後會在傳輸完成時設定緩衝區事件。
OS 會使用 GetReadPacket（）傳回的資訊，從 WaveRT 緩衝區讀取數據。
OS 會等候下一個緩衝區通知事件。如果驅動程式在步驟（2c）中設定緩衝區通知，等候可能會立即終止。
如果驅動程式未在步驟（2c）中立即設定事件，則驅動程式會在將更多擷取的數據傳輸至 WaveRT 緩衝區之後設定事件，並使 OS 可供讀取
移至（2）。針對 KSNODETYPE_AUDIO_KEYWORDDETECTOR 關鍵詞偵測器針腳，驅動程式應該為至少 5000 毫秒的音訊數據配置足夠的內部高載緩衝。如果 OS 無法在緩衝區溢位之前於針腳上建立數據流，則驅動程式可能會結束內部緩衝活動並釋放相關聯的資源。

語音喚醒

喚醒語音（WoV）可讓使用者透過說出特定關鍵詞，例如“Hey Cortana”，從螢幕關閉、降低電源狀態、開啟螢幕、完整電源狀態來啟動和查詢語音辨識引擎。

此功能可讓裝置在裝置處於低電源狀態時一律接聽用戶的語音，包括螢幕關閉且裝置閑置時。它使用接聽模式來達到此動作，相較於正常麥克風錄製期間所見的電源使用量較高，電源較低。低功率語音辨識可讓用戶簡單地說出預先定義的關鍵片語，例如「Hey Cortana」，後面接著鏈結的語音片語，例如「何時我的下一個約會」，以免手方式叫用語音。無論裝置正在使用或閑置螢幕關閉，這都能運作。

音訊堆疊負責傳達喚醒數據（說話者標識符、關鍵詞觸發程式、信賴等級），以及通知感興趣的用戶端已偵測到關鍵詞。

新式待命系統的驗證

來自系統閑置狀態的 WoV 可以在新式待命系統上使用 AC 電源上的新式待命喚醒基本測試，以及 HLK 中 DC 電源上的新式待命喚醒基本測試來驗證。這些測試會檢查系統是否有硬體關鍵詞 Spotter （HW-KWS），能夠進入最深層運行時間閑置平台狀態（DRIPS），而且能夠在語音命令上從新式待命喚醒，系統恢復延遲小於或等於一秒。

共用方式為

語音啟用

Cortana 終端用戶體驗