Cortana 設備建議

"Windows音頻驅動"翻譯系列總目錄: https://blog.csdn.net/danteLiujie/article/details/102530417

 

目錄

Cortana 設備建議

第 0 部分:文檔

定義

第 1 部分:摘要和大綱

Windows 10 中的語音識別

設備建議

Device.SpeechRecognition

Device.Audio

Device.Audio.Acoustics

性能級別

高級

標準

語音識別和電話服務之間的區別

第 2 部分:Device.SpeechRecognition 建議

Device.SpeechRecognition.Quiet

Device.SpeechRecognition.AmbientNoise

Device.SpeechRecognition.EchoNoise

Device.SpeechRecognition.DefaultMicGain

第 3 部分:Device.Audio HLK 建議

Device.Audio.Base.AudioProcessing

Device.Audio.Base.StreamingFormats

Device.Audio.Base.SamplePositionAccuracy

Device.Audio.USB.USB

驅動程序指南

第 4 部分:Device.AudioAcoustics 建議

Device.Audio.Acoustics.MicArray

麥克風陣列描述符

Device.Audio.Acoustics.MicSensitivity

Device.Audio.Acoustics.MicIntegration

Device.Audio.Acoustics.MicPlacement

Device.Audio.Acoustics.MicSelfNoise

Device.Audio.Acoustics.MicReceivedNoise

Device.Audio.Acoustics.MicMagnitudeResponse

Device.Audio.Acoustics.MicPhaseResponseMatching

Device.Audio.Acoustics.MicDistortion

Device.Audio.Acoustics.MicBandwidth

Device.Audio.Acoustics.RenderDistortion

Device.Audio.Acoustics.RenderPlacement

參考


Cortana 設備建議 – Windows 10 hardware dev

第 0 部分:文檔

Disclaimer: 本文檔按“原樣”提供。本文檔中表示的信息和視圖(包括 URL 和其他 Internet 網站引用)如有更改,恕不另行通知。在商業發行之前會發生實質性修改的、與預發佈產品相關的一些信息。Microsoft 不對此處提供的信息作任何明示或暗示的擔保。你需自行承擔使用本文檔所帶來的風險。

這裏提供的一些示例僅供演示,而且是虛構的。與真實世界無實際關聯,也不應以此作爲推斷。

本文檔中的所有建議和標準僅作爲近似準則,並不保證所有設備在實際條件下的語音識別性能。語音識別是複雜的計算機學習過程,本質上並不完美。即使滿足所有高級建議,也不保證 Cortana 和語音識別在設備上的工作完美無缺。

定義

有關相關術語、參考 (ITU-p.10) 的完整列表。

標題 定義
ADC 模擬數字轉換器(簡稱 A/D)
AEC 回聲消除器
AGC 自動增益控制
ASR 自動語音識別
BPF 帶通濾波
捕獲(或發送) 輸入(近端)語音信號
dB SPL 分貝聲壓級 = 語音平臺等式,其中 pref=20 微帕斯卡。0 dBPa 對應 94 dBSPL
dBFS(或 dBov) 滿刻度分貝值 = 語音平臺等式,其中 Sref= 滿刻度數字正弦波的 RMS

 

相對於其過載電平或最大電平的數字信號的信號電平由 dBov 指定。這通常也稱爲 dBFS(滿刻度)。

例如,僅具有最大正數或最大負數的矩形函數電平爲 0 dBov。對於最大刻度數字正弦信號,峯值電平是 0 dBov 並且 RMS 是 -3.01 dBov。(ITU-T G.100.1)。

DI 指向性指數(有關詳細信息,請參閱本文檔中的附錄 A。)
DRC 動態範圍壓縮
DSP 數字信號處理
DUT(或 DRP) 測試中的設備(或設備參考點)
FIR 有限脈衝響應
HATS 人頭和軀幹模擬器 – 在 ITU-T 建議 P.58 [15] 中介紹
IHV 獨立硬件供應商
IIR 無限脈衝響應
MRP 嘴參考點是仿真嘴的嘴脣平面前 25 毫米的點。這是在測量正常講話、大聲講話和安靜講話之前校準語音級別的點
NG 環境噪聲增益(有關詳細信息,請參閱本文檔中的附錄 A。)
NGA A 加權環境噪聲增益(有關詳細信息,請參閱本文檔中的附錄 A。)
正規帶 標稱通頻帶爲 300-3400 Hz 的語音信號 (ITU-p.10 N-3)
呈現(或接收) 輸出(遠端)語音和/或其他呈現的音頻信號
TCLw 終端耦合損耗(加權)
THD+N 總諧波失真(包括噪聲)= ((signal-f₀))⁄f₀¹
寬頻帶 標稱通頻帶爲 100-7000 Hz 的語音信號 (ITU-p.10 W-3)
ƒ₀ 基本頻率

 

¹SpeechPlatformEquation1其中“—”通過陷波濾波完成

第 1 部分:摘要和大綱

語音平臺用於增強 Windows 10 中的所有語音體驗,例如 Cortana 和聽寫。 本文檔提供旨在用於 Microsoft 語音平臺的音頻輸入設備設計和開發的指南及建議。

本文檔中提供的指南僅限於直接影響以下項的設計參數:1) 語音識別準確性 2) 基礎語音處理算法的行爲。本文檔不是 Windows 認證計劃的一部分,也不是設備認證所需的建議。建議僅用作設備設計的幫助指南和最佳做法。

Windows 10 中的語音識別

鼓勵設備製造商將語音增強處理集成到其設備中並進行調整,以便相對於語音識別測試條件來優化性能。

對於未集成語音增強處理的設備,Microsoft 在 Windows 10 中提供了默認處理。Microsoft 中的語音增強處理不需要 IHV 進行特定於設備的調整。

Microsoft 語音增強管道包括以下功能 – 針對高質量語音識別進行調整:

  • 寬帶處理 (16 kHz)
  • 回聲抵消
  • 麥克風陣列支持和波束形成
  • 平穩噪聲抑制

如果音頻驅動程序未公開麥克風幾何結構和語音的音頻信號處理,將使用 Microsoft 語音增強管道。爲了利用第三方增強功能,必須提供麥克風幾何結構、支持音頻輸入上的“語音”信號處理模式,並確保音頻驅動程序提供的效果或其 APO 至少包含噪聲抑制和回聲抵消。

設備建議

本文檔中的建議分爲三個部分進行討論:

  1. Device.SpeechRecognition(有關詳細信息,請參閱本文檔中的第 2 部分。)
  2. Device.Audio(有關詳細信息,請參閱本文檔中的第 3 部分。)
  3. Device.Audio.Acoustics(有關詳細信息,請參閱本文檔中的第 4 部分。)

Device.SpeechRecognition

本部分定義語音識別性能要求,以確保高質量語音體驗。應根據這些性能要求測試所有設備。

Device.Audio

本部分提供指南,以便根據軟件接口、通信協議和數據格式在主機操作系統上獲得最佳的運行效果。應根據這些指南測試所有設備。

Device.Audio.Acoustics

本部分提供有關設備設計的聲學及相關屬性的建議和最佳實踐。本部分最常用於使用 Microsoft 語音增強處理的設備。

合適的組件選擇、聲學設計和機械集成對於捕獲儘可能最好的音頻從而提供良好體驗非常重要,而不是依賴於語音增強管道。建議未在設備上執行語音增強處理的設備(即,使用操作系統中提供的默認語音增強管道)遵循 Device.Audio.Acoustics 下的高級建議,以便最大程度地滿足 Device.SpeechRecognition 體驗要求,並與操作系統語音增強管道一起正常工作。

性能級別

有時,本文檔中的功能指南將拆分爲兩個級別 – 標準和高級。進行這樣的區分是爲了明確存在一系列面向語音功能、跨目標價格和操作區域的設備。Microsoft 建議所有設備都以高級指南(如果指定)爲目標。

設備必須滿足所有類別中的高級建議才能視爲高級設備。高級和標準類別不屬於 Windows 認證計劃,而屬於已瞭解的最佳做法和指南。

高級

設備滿足爲出色使用語音識別建議的功能指南。設備在更具挑戰性的條件下(如增加的噪聲級別或更遠的距離)也將正常工作。由於用戶可以從大於 1 米的距離與設備交互,這將支持使用語音進行自然交互。用戶將能夠在具有挑戰性的噪聲環境中(環境噪聲或由於設備播放)使用設備,並且這將支持自然交互,例如“你好小娜,下一首歌”。

標準

設備滿足使用語音識別的基本功能指南。設備將在環境條件下正常工作。

高級和標準

語音識別和電話服務之間的區別

本文檔僅包含使用語音平臺的建議,但是,許多面向語音識別功能的設備也同時面向電話服務使用。相似點非常明顯 – 兩種情況都使用帶有麥克風的設備接收人工語音、使用音頻處理管道從環境中去除噪聲並增強人工語音,並使用依賴於清晰語音信號的應用程序來理解語音。

區別在於由哪一方使用語音信號。電話服務的使用者爲人類,對他們來說,可感知的語音質量和語言清晰度極其重要。語音識別的使用者爲算法,其中由對語音信號的特定特徵進行訓練的機器學習來確定識別的內容,並且這些特徵並不一定以感知規範爲標準。

可感知的語音質量通常與語音識別的準確性關聯起來,但並非總是如此。本文檔側重於評估和最大程度提高語音識別準確度的方法。建議支持“語音”信號處理模式並專門爲語音識別調整該模式。

通過 Skype/Lync 音頻認證是良好的設備音頻性能的強有力證明。

第 2 部分:Device.SpeechRecognition 建議

本部分提供有關設備在各種環境中的目標語音識別準確性的建議。所有建議都表示每種方案中可接受的用戶體驗的最低要求。測試條件和步驟在測試設置中指定。

設備應務必滿足本部分中的建議,以便:

  • 確保設備可以在各種環境中正常使用語音識別
  • 確保設備將在 Microsoft 語音增強管道的可操作邊界內正常工作(針對未使用其自己的語音增強管道的設備)

目標是語音的準確性;語音級別是 89 dB SPL @ MRP。

三個測試必須全部達到 Standard 才能歸類爲 Standard

Device.SpeechRecognition.Quiet

安靜測試表示環境噪聲最小(本底噪聲 < 35 dBA SPL)的理想環境。

安靜 高級 標準
<= 35 dBA SPL 95% 90%

 

Device.SpeechRecognition.AmbientNoise

環境噪聲測試表示各種級別和類型的噪聲環境,例如咖啡館和酒吧

環境噪聲 @ DUT 高級 標準
>= 57 dBA SPL 90% 85%

 

Device.SpeechRecognition.EchoNoise

回聲噪聲測試表示各種級別和類型的呈現播放場景(例如媒體播放)。

級別校準在偵聽器位置 (LRP)。

回聲噪聲 @ LRP 高級 標準
>= 70 dBA SPL 90% 85%

 

Device.SpeechRecognition.DefaultMicGain

爲了確保最佳的用戶體驗並最大程度地保證 Windows 語音的準確性,麥克風增益設置應設爲用於通過上述測試的最佳級別。然後,生成的增益設置可以在註冊表項中進行如下所示:

名稱 HKLM\SOFTWARE\Microsoft\Speech_OneCore\AudioInput\MicWiz\DefaultDefaultMicGain
類型 REG_DWORD
數據 0-10000 十進制,0-0x2710 十六進制
說明 最大增益百分比乘以 100

 

對於符合或超過所有三個測試標準指標且具有集成麥克風陣列的設備,由 IHV 設置此項。

示例

此示例將 MicGain 設置爲 42.00%,即 0x1068:

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech_OneCore\AudioInput\MicWiz]

“DefaultDefaultMicGain”=dword:00001068

此示例將 MicGain 設置爲 64.50% 即 0x1932:

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech_OneCore\AudioInput\MicWiz]

“DefaultDefaultMicGain”=dword:00001932

條件

  • 該註冊表項僅適用於集成的麥克風陣列,不應在使用外部麥克風時實現。
  • 不應在不符合或未超過所有三個測試標準指標的設備中實現該註冊表項。

第 3 部分:Device.Audio HLK 建議

本部分提供有關設備的軟件和硬件接口、通信協議以及數據格式的建議。

設備應務必滿足本部分中的建議,以便:

  • 確保設備將在 Windows 音頻管道框架中正常工作
  • 確保設備將在 Microsoft 語音增強管道的可操作邊界內正常工作(針對未使用其自己的語音增強管道的設備)

要使用語音識別功能的設備必須滿足 Windows 硬件認證要求下提供的所有 Device.Audio 要求。

語音識別功能最相關的 Device.Audio 要求將在以下部分中進行說明。

Device.Audio.Base.AudioProcessing

驅動程序必須通過 FXStreamCLSID、FXModeCLSID 和 FXEndpointCLSID APO(或代理 APO)公開所有音頻效果。 APO 必須在系統查詢時向其發送已啓用效果的準確列表。 驅動程序必須支持 APO 更改通知,並且僅在 APO 更改發生時才通知系統。

不應存在不可發現或不可控制的硬件、固件或基於第三方軟件的 BPF、AGC、DRC、AEC、波束形成、噪聲抑制或任何其他從設備/向設備改變音頻樣本(例如非線性處理)的技術。

驅動程序配置驗證工具可以用於在設備上進行驗證。

Device.Audio.Base.StreamingFormats

語音識別在 StreamingFormats HLK 中定義的所有音頻捕獲和呈現流格式下工作,最佳狀態爲 16 kHz 並使用 24 位捕獲和單聲道呈現。 請注意,當單聲道呈現對於回聲抵消性能而言爲最佳選擇時,很明顯它並不適用於媒體應用程序,因此此建議僅供語音輸入是主要或獨有功能的設備參考。 回聲消除器將使用所有呈現格式,並且設備通常將具有立體聲或更出色的呈現功能。

Device.Audio.Base.SamplePositionAccuracy

呈現和捕獲音頻信號應務必滿足以下條件:1) 採樣準確 2) 時間戳準確。

ADC 和 DAC 上的準確採樣確保高保真的音頻信號,這將支持良好的語音質量(樣本誤差將噪聲添加到信號)和準確的回聲抵消(樣本誤差將噪聲添加到回聲估計並創建信號誤配準)。

準確的時間戳確保捕獲和呈現信號可以針對回聲抵消進行同步。

所有捕獲通道都必須同步(對齊 t0 樣本)。這包括所有在完全相同的時間點初始化的 ADC,以及任何要對齊且無數據的緩衝區。這對波束形成和聲源定位器性能非常重要,後者要依賴於子樣本對齊才能估計聲源的位置。

漂移在附錄 A:計算中定義爲與地面實況時鐘有關的絕對時鐘漂移。但是,回聲消除器所看到的漂移實際是捕獲和呈現路徑之間的相對漂移。

等式

使用內置捕獲和呈現路徑的設備可以通過從同一個主時鐘源派生捕獲和呈現時鐘來否定此相對漂移。這樣,即使主時鐘存在絕對漂移,但捕獲和呈現時鐘之間的相對漂移是 0%。

Device.Audio.USB.USB

所有 USB 音頻輸入設備都必須根據 USB 設備類規範正確設置描述符。

終端類型 代碼 I/O 說明
未定義的輸入 0x0200 I 輸入終端,未定義的類型。
麥克風 0x0201 I 不適合任何其他分類的通用麥克風。
桌面麥克風 0x0202 I 通常放置在桌面或集成到顯示器的麥克風。
個人麥克風 0x0203 I 頭戴式或領夾式麥克風。
全向麥克風 0x0204 I 專用於在相對較長範圍內接收多個演講者語音的麥克風。
麥克風陣列 0x0205 I 專用於使用基於主機的信號處理算法進行定向處理的一組麥克風。
處理麥克風陣列 0x0206 I 具有嵌入式信號處理器的一組麥克風。

 

驅動程序指南

WDM 音頻驅動程序開發路線圖:http://www.microsoft.com/whdc/device/audio/wavertport.mspx

第 4 部分:Device.AudioAcoustics 建議

本部分提供有關設備的聲學和相關屬性(例如麥克風和揚聲器放置、麥克風響應、從設備接收的噪聲等等)的建議。麥克風選擇、放置、集成和陣列設計是一些非常重要的因素,以支持高品質語音識別性能。

建議和測試相對於在語音增強處理之前但在麥克風均衡及麥克風增益固定之後的信號。

設備應務必滿足本部分中的建議,以便:

  • 確保設備將在 Microsoft 語音增強管道的可操作邊界內正常工作(針對未使用其自己的語音增強管道的設備)。
  • 確保設備將在 Microsoft 語音識別應用程序(例如 Cortana)的可操作邊界內正常工作。
  • 確保設備具有與其他用於使用語音識別應用程序的語音輸入設備類似的特徵。

Device.Audio.Acoustics.MicArray

麥克風陣列在支持語音增強管道去除以下形式的本地化噪聲方面起着重要作用:

  • 環境噪聲
  • 接收(回聲)噪音
  • 室內混響
  • 設備生成的自噪聲(如風扇)

請注意,良好的麥克風陣列設計將涉及許多參數而不僅是麥克風的數量,並且高度依賴於設備集成和使用情況。有關設計注意事項和實現指南(以及其他許多內容非常詳盡的最佳做法),請參閱 Windows 中的麥克風陣列支持

音頻驅動程序必須實現 KSPROPERTY_AUDIO_MIC_ARRAY_GEOMETRY 屬性。然後可以通過 Windows.Devices.Enumeration API 訪問 System.Devices.MicrophoneArray.Geometry 屬性。USB 音頻驅動程序將爲在 USB 描述符中設置相應字段的 USB 麥克風陣列支持此屬性。

驅動程序配置驗證工具可以用於在設備上進行驗證。

對於將使用 Microsoft 語音增強管道的設備,建議使用已知可正常工作的以下陣列幾何結構。但是,Microsoft 語音增強功能可以使用麥克風陣列描述符中指定的任何陣列類型。

推薦的麥克風陣列幾何結構

具有以下理論性能屬性:

麥克風陣列 麥克風 類型 NG (dB) NGA (dB) DI (dB)
線性(小型) 2 單向 -12.7 -6.0 7.4
線性(大型) 2 單向 -12.9 -6.7 7.1
線性 (4 el A) 4 單向 -13.1 -7.6 10.1
4 L 形(可旋轉) 4 單向 -12.9 -7.0 10.2
5 (4 el B) 4 全向 -12.9 -7.3 9.9

 

麥克風陣列描述符

設備必須使用麥克風陣列描述符描述其麥克風類型和幾何結構。麥克風陣列描述符用於參數化 Microsoft 和第三方的語音增強管道中的波束形成器和聲源定位器。

可以通過麥克風陣列描述符定義並支持與上述子部分中默認描述符不同的自定義描述符。

有關麥克風陣列描述符的詳細信息如下:

Device.Audio.Acoustics.MicSensitivity

麥克風敏感度建議確保可以支持足夠電平的語音輸入,而無需使數字音頻輸入路徑飽和(即,削波),並確保輸入語音信號位於足夠高的電平以進行識別。

麥克風 + 數字接口 建議 測試信號 DUT 位置
最高電平 ≤ -20 dBFS RMS

 

100-8000Hz

連續對數掃頻 3 秒

 

94 dB SPL @ MRP(“響亮”)

最接近 MRP 到 DUT 支持的方案(由 IHV 定義)
最低電平 ≥ -55 dBFS RMS

 

100-8000Hz

連續對數掃頻 3 秒

 

69 dB SPL @ MRP(“安靜”)

最遠的 MRP 到 DUT 支持的方案

 

“最高”建議設置爲能夠支持視爲“響亮”的語音輸入電平(70 dB SPL RMS @ 1m,波峯因數爲 12),其中已針對在 94 dB SPL @ MRP 回放的對數掃頻測試信號測量 -20 dBFS 的閾值以便與目標電平的真實語音相關聯。請注意:選擇此閾值和輸入信號以簡化典型音頻生成器測試/分析測試設置。

“最低”建議設置爲能夠支持視爲“安靜”的語音輸入電平(55 dB SPL RMS @ 1m,波峯因數爲 12),其中已針對在 69 dB SPL @ MRP 回放的對數掃頻測試信號測量 -55 dBFS 的閾值以便與目標電平的真實語音相關聯。

如果上述方案中接收的電平通過簡單的線性增益調整後未適應於最大和最小閾值之間,應使用設備特定的 AGC 調整語音電平以適應閾值。

陣列中所有麥克風上的麥克風敏感度匹配非常重要,對於 Standard 應在 +/- 3 dB 之內,對於 Premium 應在 +/- 1 dB 之內。系統級別性能在 Device.Audio.Acoustics.MicMagnitudeResponse 中指定並測試。MEMS 麥克風具有較低的製造公差,建議用於最佳的麥克風到麥克風匹配特性。

請注意,如果不使用 MEM 麥克風,則敏感度將在裝配期間發生變化,也將由於環境條件而在使用期間發生變化。

Device.Audio.Acoustics.MicIntegration

謹慎進行麥克風的機械集成非常重要,這是一個常見的失敗根源。

必須集成麥克風,以便確保麥克風和設備機殼之間以及沿麥克風端口聲管(如果適用)的良好聲密封。最大程度地減少系統和麥克風之間的噪聲和振動也非常重要。兩種典型的解決方案是使用橡膠套或襯墊。

無論選擇哪種方法,都要檢查聲密封是否足以適應所有生產公差以及環境和生命週期的改變。

Device.Audio.Acoustics.MicPlacement

一般情況下,遵循以下準則來放置麥克風陣列:

  • 儘可能遠離噪聲源,例如揚聲器、風扇、鍵盤、硬盤驅動器和用戶的手。
  • 儘可能接近演講者的嘴部。

Device.Audio.Acoustics.MicSelfNoise

麥克風組件也是噪聲源,稱爲自噪聲或等效噪聲。它可能由各種源產生,但它在麥克風內部創建,並且實際獨立於 SPL。等效噪聲表示麥克風動態範圍的最低點,並且對於獲得良好的波束形成性能而言尤爲重要。使用高品質麥克風將最大程度地減小麥克風內部噪音。

對於 Standard,建議使用標稱 SNR 至少爲 61 dB 的麥克風,對於 Premium 則爲 63 dB。

Device.Audio.Acoustics.MicReceivedNoise

接收噪聲的兩個主要來源是聲噪聲和電氣噪聲。聲噪聲可能由外部設備產生,或在設備內部(由於風扇,硬盤等)產生。聲噪聲還可以通過設備機械裝置傳遞。

可以使用數字麥克風而不是模擬麥克風來最大程度地減小電氣噪聲。

Device.Audio.Acoustics.MicMagnitudeResponse

Premium 和 Standard 掩碼適用於 Device.Audio.Acoustics.Bandwidth 下的所有設備層。例如,設備可以具有 Standard 帶寬(窄頻帶)和該頻帶內的 Premium 幅值響應。

出於兩個原因,麥克風幅值響應容差掩碼非常重要:

  • 減少由於通道響應而在陣列中的麥克風之間產生的差異
  • 減少由於通道響應而在設備之間產生的差異

這會帶來以下結果:

  • 用於訓練語音聲學模型的數據變化更少
  • 語音增強管道中的波束形成性能更一致
  • 低頻率的能量更少,SNR 區域更低 -> 由於低頻噪聲,信號中的噪聲更少並且飽和度的可能性更小
  • 可感知應用程序的語音聽起來更自然

出於對這些因素的考慮,Microsoft 鼓勵滿足下方響應掩碼(“平坦”表示理想目標),從而針對隨着時間發展的聲學模型,使響應在設備之間融合。

麥克風幅值響應限制

  高級 高級 標準 標準
頻率 (Hz) 上限 (dB) 下限 (dB) 上限 (dB) 下限 (dB)
200 3 -6 6 -9
300 3 -3 6 -6
5000 3 -3 6 -6
6300 3 -3 6 -6
7000 3 -3 6  

 

所有麥克風都必須同時滿足掩碼。掩碼是浮動的,即絕對增益並不是其中一個因素。

Device.Audio.Acoustics.MicPhaseResponseMatching

麥克風相位響應匹配限制非常重要,以確保通過陣列中麥克風元素所接收信號之間的臨時關係與與陣列中麥克風元素的物理幾何結構保持一致。

這對於 Microsoft 語音增強管道中的波束形成器和聲源定位器處理非常重要,這將使用每個麥克風通道的語音信號之間的相對延遲完成以下操作:

  • 估計定位聲音的方向
  • 抑制來自非偵聽方向的噪聲。

麥克風相位響應匹配限制

  高級 標準
頻率 (Hz) 上限 (deg) 上限 (deg)
200 20 30
1000 20 30
4000 20 30
7000 25 30

 

Device.Audio.Acoustics.MicDistortion

要求擴展到有效帶寬的 ½,這時第一個諧波將超過奈奎斯特速率。

出於兩個原因,滿足麥克風失真和噪聲限值非常重要:

  • 確保語音在進入語音識別器之前相對未失真
  • 保持迴音路徑上的非線性關係最小以實現良好的回聲抵消性能

建議使用 SDNR(脈衝噪聲信號對失真和噪聲比)測量失真,儘管也已提供 THD 目標。有關 SDNR 測試方法的詳細信息,請參閱 IEEE 269-2010 Annex L。

  高級 高級 標準 標準
頻率 THD SDNR THD SDNR
250 2.50% >= 32 3.20% >= 30
1000 2.50% >= 32 3.20% >= 30
4000 2.50% >= 32 3.20% >= 30
5000 4.00% >= 28 4.00% >= 28
6000 6.30% >= 24 6.30% >= 24

 

Device.Audio.Acoustics.MicBandwidth

捕獲信號的採樣率是決定語音信號有效帶寬的主要因素。由於語音平臺在語音識別器中使用 16 kHz 聲學模型,建議使用 16 kHz 最小採樣率。300 Hz 是語音識別器的有效下端,但針對同時也面向語音通信的設備,建議使用 200 Hz 聲學限制。

濾波還可以改變設備的有效帶寬,例如 ADC 中的模擬 FIR 低通濾波器、管道較後階段中的數字帶通濾波器,或者甚至是由於麥克風元素或電子系統的響應產生的衰減。在設計過程中應考慮這些因素。

語音平臺使用 8 kHz 聲學模型,僅爲提供對傳統藍牙音頻設備的支持。

Device.Audio.Acoustics.RenderDistortion

請注意:Device.Audio.Acoustics.RenderDistortion 僅適用於具有內置揚聲器的設備。

出於以下原因,滿足揚聲器失真限制非常重要:

  • 保持迴音路徑上的非線性關係最小以實現良好的回聲抵消性能

建議使用 SDNR(脈衝噪聲信號對失真和噪聲比)測量失真,儘管也已提供 THD 目標。有關 SDNR 測試方法的詳細信息,請參閱 IEEE 269-2010 Annex L。

  高級 高級 高級 高級 標準 標準 標準 標準
  電平:-22dBFS 電平:-22dBFS 電平:-16dBFS 電平:-16dBFS 電平:-22dBFS 電平:-22dBFS 電平:-16dBFS 電平:-16dBFS
頻率 THD SDNR THD SDNR THD SDNR THD SDNR
300 6.3% >= 24 6.3% >= 24 NA NA NA NA
500 6.3% >= 24 6.3% >= 24 NA NA NA NA
600 5% >= 26 5% >= 26 10% >= 20 10% >= 20
800 5% >= 26 5% >= 26 8% >= 22 8% >= 22
1000 4% >= 26 5% >= 26 6.3% >= 24 6.3% >= 24
1500 4% >= 26 5% >= 26 5% >= 26 6.3% >= 24
3000 4% >= 26 5% >= 26 5% >= 26 6.3% >= 24
4000 5% >= 26 5% >= 26 5% >= 26 6.3% >= 24
5000 5% >= 26 5% >= 26 6.3% >= 24 6.3% >= 24
6000 5% >= 26 5% >= 26 6.3% >= 24 6.3% >= 24

 

Device.Audio.Acoustics.RenderPlacement

若要使聲學回聲消除器正常工作,設備揚聲器應放置在距離麥克風最遠的位置,或直接放置朝空的揚聲器。

參考

原文:https://msdn.microsoft.com/zh-cn/library/windows/hardware/dn957008(v=vs.85).aspx

標題 鏈接
有用的定義和指標 http://www.rane.com/note145.html
Windows 中的麥克風陣列支持 http://msdn.microsoft.com/library/windows/hardware/dn613960.aspx
ITU-p.10 參考術語 https://www.itu.int/rec/T-REC-P.10-200607-I/en
3GPP 終端聲學特徵 http://www.3gpp.org/DynaReport/26131.htm
ETSI UMTS 語音電話服務終端聲學測試規範

 

(3GPP TS 26.132 版本 11.4.0,第 11 版)

http://www.etsi.org/deliver/etsi_ts/126100_126199/126132/11.04.00_60/ts_126132v110400p.pdf
ETSI EG 202 396-1 http://www.etsi.org/deliver/etsi_eg/202300_202399/20239601/01.02.02_60/eg_20239601v010202p.pdf

轉載請註明:小衆聲學 » Cortana 設備建議

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章