雲視頻會議背後的語音核心技術揭祕:如何進行語音質量評估?

自疫情發生以來,騰訊會議每天都在進行資源擴容,日均擴容主機接近1.5萬臺,用戶活躍度攀升。在如此高併發流量的衝擊下,騰訊會議如何保證語音通信清晰流暢?如何對語音質量進行評估?在【騰訊技術開放日·雲視頻會議專場】中,騰訊多媒體實驗室音頻技術專家易高雄針對語音質量評估進行了分享。

語音質量界定:語音質量測試與音頻質量測試

音頻和語音是電聲學下面兩個不同的學科分支,屬於兩個不同的應用,兩者在應用目的、使用場景、行業和用戶認知統一度三方面存在差異,所以對於語音質量測試來說,首先要界定一下評估對象是音頻還是語音

1、應用目的:語音交互、溝通VS個性化呈現音樂

語音質量關注交互和溝通,其最終目的是儘量保真傳輸語音,保證交互效率;音頻質量關注音樂的表達,如何個性化呈現音樂,其目的是讓人感受到所播放音樂的聽感效果是好的,這裏音樂聽感是不是和錄製時現場並不一樣。

2、使用場景:雙向、主動交互VS單向、被動聆聽

語音質量需要考慮雙向溝通過程中用戶的體驗,音頻則是被動的聆聽,質量評估更多關注音樂提供者讓用戶感受到的音樂質量。

3、行業、用戶認知統一度:標準程度較好VS分裂不統一

經過這麼多年的技術發展,語音通信質量評估在行業裏有很多標準,但評估音樂播放的標準並不多。

我們今天分享的內容就是針對語音質量測試的,對於語音通信來說,儘管有了比較多的標準,但因爲語音質量也是非常主觀的感覺,仍存在很多困擾,比如語音質量究竟如何評估,用戶到底自己是如何感受?

語音質量主觀感受因素:外部因素和語音本身

諸多研究表明,用戶在使用語音通信應用時,能感知到的語音質量受很多因素影響。

1、外部因素

  1. 網絡條件:如果網絡不好,實際聽到的聲音會有卡頓;傳輸是通信的基石,如果傳輸質量無法保證,那麼質量會受到很大影響
  2. 環境條件:如果周圍環境嘈雜,對方會聽到很多噪音,不管用什麼算法,都可能會感受到殘留的噪音;如果在封閉房間通信,房間的混響條件也會讓語音聽起來很渾濁,影響對方的聽感。
  3. 個體的聽覺差異:不同人的聽力曲線不同,耳朵對不同頻段的聲音反應也就不一樣,這個和年齡段有關係,不同年齡段聽域範圍不一樣。
  4. 用戶期望:用戶在使用APP或終端時,自然而然會對所使用的產品表現出的質量產生期望,這些期望也跟用戶的經驗有關係。同時,在一些場景,應用若提供了額外信息,也會影響到用戶對該次通信質量的期望。

2、語音本身

(1)單聽或單說:語音特性會影響語音質量,有人本身音色不好,或者對非母語的語言熟悉程度特性,也會讓對方覺得通話質量不高,此外,語音可懂度、聲音質量、自然度也和對方能感知的語音質量有密切關係。

(2)雙方交互:最主要的主觀感受因素是回聲,如果聽到回聲,那麼通話質量不好,如果兩人同時說話產生語音剪切,通話質量也會不好。

雲視頻會議語音通信的性能目標:達到面對面1米講話效果

語音視頻會議是一個非常複雜的場景,電信業界多年遇到的語音交互場景,幾乎都可能被會議場景所涵蓋,它的接入方式包括固定電話通信和移動通信兩種傳統接入方式,同時還要接受電腦、Pad的接入。此外,同時參會的用戶並不固定在安靜環境中,因此所有紛繁複雜的場景都可能彙總到同一個語音視頻會議中。

雖然加入到同一個會議裏的人數不固定,每個人的接入方式不固定,但總體抽象來說,一次會議裏的語音交互,仍然可以看成是自己和另外一方的交互,也許另外一方是兩個人甚至更多人,但每個人在自己這端,仍可以把它抽象成一對一的語音交互。

站在這個角度,我們可以沿用電信業界成熟的質量目標參考,ITU-T多年前就定義的比較清楚,要達成好的語音傳輸,需要實現大概什麼樣的效果呢?就是兩個人站在沒有障礙的空間,一對一間隔一米說話的效果。不過由於語音通信的應用和終端分佈在不同城市,接入不同移動運營商,同時還受到硬件本身採集、處理和播放特性的影響,永遠無法達到面對面1米交流的時間低延遲,也永遠達不到那麼高的質量和自然度,但始終在努力逼近。

雲視頻會議語音通信目標實現的三大影響因素

1、性能與場景適配選擇對語音質量的影響

(1)接入場景

視頻會議中允許電信網接入,主要包括PLMN和PSTN,PSTN就是固定電話接入,固定電話可能是模擬電話,也可能是企業裏的IP電話;PLMN就是移動通信,現在更多的移動終端本身還支持vowifi 接入。此外,還有最主要的VoIP接入是手機或者電腦上裝app的軟件接入,這種會和PSTN接入有一些區別。

(2)使用模式

從使用模式來說,用戶說話時會涉及不同設備的不同使用方式。比如PSTN接入,用固定電話,要把聽筒放在耳邊;用VOIP接入,可能使用的電腦,這種叫做免提模式,同時手機也存在免提模式;戴耳機就是耳機的使用模式。

(3)性能與場景適配選擇

不同的使用模式會給語音通信應用帶來不同效果,效果是由設備本身和場景定義的,就存在性能和場景適配的選擇。

手柄模式,聽筒離耳朵近,話筒送話器離嘴巴近,嘴巴發出的聲音到收話器間距離很短,語音衰減小,所以相對於周圍環境來講採集到的聲音信噪比高,因此麥克風靈敏度可以低、處理中加上的增益可以更小,導致低迴聲和低混響。

免提模式,嘴巴發出聲音,到聲音採集設備麥克風的距離較大,語音衰減大,相比在環境中的噪聲來講,語音信噪比降低很多,同時爲了採集到合適大小聲音,麥克風靈敏度和增益要提高,回聲和混響進一步增多。

耳機模式,用戶的語音衰減少,因爲耳朵上的麥克風離嘴巴距離要稍遠一點,但耳機本身採集聲音的單元離耳朵鼓膜更近,同時耳機還具有一些額外屏蔽效果,並且相比前兩種模式來說,輸出的聲音音質可以更好。

傳統的電信業界,每個硬件設備針對其場景和接入模式,都根據自己的硬件特性,都分別做了優化,但對於語音視頻會議或純語音通信應用來說,可能沒有辦法完全知道用戶的接入場景,也沒辦法獲得更多設備硬件的信息,所接觸到的語音,都是被特性未知的硬件採集到的聲音,所以獲得更高的語音質量難度會大很多。

2、聲學傳遞路徑影響語音質量的關鍵因素:回聲和背景噪聲

(1)手柄或耳機模式

手柄或耳機通話,進入到麥克風的不僅有自己的聲音,也會採集到一些回聲、雙工信號以及背景噪聲,我們的耳朵收到對方聲音的同時也會聽到背景噪聲,還有自己說話的聲音。

(2)免提模式

麥克風採集到的聲音和剛剛的模式類似,有回聲、雙工信號、背景噪聲,唯一不同的是,在免提模式下,設備本身需要發出較大的聲音,才能讓用戶聽的清楚和響亮,麥克風採集需要更強,才能採集到更響亮的用戶語音,自然而然進入到麥克風的回聲大小也就跟原來不一樣。

總體而言,影響語音通信過程中信號處理效果關鍵的因素是回聲和背景噪聲。對於任何語音通信應用來講,回聲處理都是語音通信中非常重要的一環,因爲其它環境因素可以通過別的方法規避,但回聲沒有辦法,只要想跟對方進行自由沒有阻礙的雙方交互,就會有回聲被採集進麥克風。

3、雲視頻會議中影響語音質量的四大因素

(1)硬件設備

應用不可能獨立存在,實現會議語音通信一定要依賴於具體的硬件設備,所以硬件設備本身會 導致語音受到惡化或者激變,包括麥克風性能、揚聲器性能等,都會有一些失真,可能不能完全無損的採集和恢復聲音。除了 失真、頻率響應,還有一些 指向性特點,一些新型超新型麥克風能採集到的聲音在不同位置下會有區別較大。

語音質量還受其它 電路佈置 的影響,比如手機接入,手機麥克風到DSP中間,是模擬電路的話,會受到無線信號的干擾。此外,聲音輸出環節,音腔設計和揚聲器結構共振導致的非線性,也都是回聲難以處理的影響因素。

(2)語音處理算法

語音處理算法主要包括:多級濾波、回聲處理算法、噪聲抑制算法、自動增益控制算法、頻帶擴展算法、嘯叫控制算法、丟包補償算法、音頻編碼。相同類型的處理算法可能會經過N次級聯處理,硬件和軟件都會進行處理,每一步處理都會對語音造成損傷。

算法層面外,軟件跟操作系統中間的協作中存在的設備啓動異常,包括麥克風沒正常打開、或打開滯後,線程同步異常導致的聲音卡頓、音頻緩衝區管理、計算資源管理 等,這些都是影響語音質量的因素。

(3)網絡接入

首先 信道質量 方面,受到流量擁塞影響,WiFi丟包、無線通信效果不好、信號強度低等情況會出現。其次受 接入調度影響,應用客戶端接入了更遠位置的服務器經過更長更多段的IP傳輸路徑,發生流量擁塞和丟包的概率也會提升。

(4)環境和場景

上一部分提到的諸如房間的噪聲、混響、拾音距離、多設備同地入會造成嘯叫現象等也都是影響語音質量的因素。

雲視頻會議語音通信的四大客觀質量評估角度和指標

1、用戶可感知的交互維度

(1)發送和接收方效果:我說話對方聽到的效果,對方說話我聽到的效果。

(2)雙講效果:雙方交互同時說話時有沒有如實把兩邊聲音展現出來。

(3)回聲效果:我說話時有沒有聽到自己的聲音從對方傳回來。

(4)背景噪聲傳輸:實際上很多通信場景並不是說要把噪聲完全消除是最好的,這也做不到,總有殘留。有時候對方希望知道你本地的額外信息,從而瞭解你所處的場景,例如是否適合通話和長時間交談。

2、雲視頻會議語音通信各方向的細分指標

(1)發送和接收方評估指標

單向時延:對於VOIP通信來講,如果能達到200毫秒以下,是非常理想的效果。也要關注頻響,這樣才能保真場景,無失真的把語音傳給對方,還要評估響度或語音電頻,聲音到對方那裏後,對方聽起來的效果、聲音大小是否合適、會不會沒有說話時也會產生噪聲。

AGC特性:使用自動增益算法後,需要評估對方聽到的聲音是否足夠響亮,過多的增益有沒有造成非線性或者削頂,會不會傳到的聲音突然變大或變小。

單向語音質量:理想情況下,大家希望用一個指標,用一到五分給語音質量打分,把質量標識出來,但實際中很難達成,因爲目前這些打分能標識的是單獨說或聽的語音效果,沒有涉及雙方交互的場景。

(2)雙講指標

雙講下需要評估本地發出去語音是否被減弱,以及有沒有同時泄露回聲。

(3)回聲評估指標

時域上和頻率上的穩定性:這裏注意在雙講情況下,要關注回聲處理後的效果,是否在某個時間段發散導致漏回聲。

回聲耦合損耗:需關注聲音從聽筒播出來,被麥克風採集並處理後傳遞給對方的過程中,回聲到底衰減了多少,是否還會被對方聽到。

回聲收斂時間:需要評估算法從開始啓動到工作,花多長時間收斂才能達到最佳回聲處理效果

反射路徑變化時的回聲性能:要關注通信中周圍回聲路徑發生變化,比如對方拿着筆記本走來走去,不停晃動,這些反射路徑變化會對回聲處理的跟蹤造成影響。

(4)噪聲指標

信噪比提升:關注信噪比提升的量、噪聲抑制完殘留的聽感,以及語音本身有沒有受到過多損傷,例如被消除,部分頻段被抑制。

特定噪聲場景:要評估諸如敲鍵盤、點鼠標、下雨打在窗戶上等特定噪聲場景下的噪聲抑制效果。

語音質量評估模型的演進:有/無參考語音質量評估模型

目前業界基於MOS分數(語音質量分數)有兩類語音質量評估模型,有參考語音質量評估模型和無參考語音質量評估模型,騰訊會議都有在使用。

1、有參考語音質量評估模型:POLQA P.863模型 接受程度最高

ITU-T歷史上主要推出了 PSQM P.861、PESQ P.862、POLQA P.863三個著名的模型,它們核心運作機理是把處理完的語音和無損語音做對比,在對比過程中,首先把聲音對齊,找到二者的偏差,對齊後把每個小片段的語音和無損的小片段語音單獨放到聽覺模型中,看各頻段上頻率成本的損失、有無額外頻率產生,這些頻率成分的增減在人的聽覺上是否足夠顯著等,最後做整個時域上做各片段語音損傷情況的平滑、加權平均等,最終映射到單獨的語音質量分數。目前最被大家接受的是POLQA P.863模型,但在使用過程中大家還是要小心,因爲每個模型都有應用場景限定,不同的場景或者不同的輸入信號,對測試結果的準確性都有影響。

2、無參考語音質量評估模型:多媒體實驗室基於深度學習的模型LSQA

包括本來是被用於網絡規劃的E-Model G.107標準、ITU-T基於流媒體的P.1201標準和騰訊多媒體實驗室模型EVA。此外,還有基於信號域的ITU-T P.563標準和ANIQUE+。

這兩年多媒體實驗室基於深度學習,提出自己的無參考語音質量評估LSQA,通過神經網絡的方式,去對傳過來的語音裏有沒有加信噪聲、發生大的語音丟失,以及整體有沒有大頻率成分偏移做評估,最終擬合到用戶主觀感受MOS質量分數。這些質量監控手段已經用在騰訊會議日常運用中,並幫我們定位網絡傳輸中語音可能發生的質量突變。

雲視頻會議客觀測試的路徑切分:上下行質量

以往都是把兩個客戶端連接建立會議,從一個端的耳機接口注入聲音,從另一端的耳機接口採集聲音,兩邊做比對得到MOS分,但實際中存在很多問題,爲了保證與不同終端、不同APP版本上、下行配合和兼容,我們把路徑做了切分,上下行質量獨立。

上行質量是從嘴巴產生聲音到被軟件和硬件處理完上傳到網絡的效果質量,下行質量是網絡傳過來的聲音,被軟件和硬件處理後又被耳朵聽到的效果,中間還包括網絡傳輸質量,包括丟包等,這樣能更好定位問題發生在哪裏。

切分路徑還需要額外的工具,比如嘴巴發出聲音被終端和軟件處理後,怎樣取出來?需要用 VoIP參考點,它需要實現整套語音通信的協議,不用去做語音的任何額外處理,只是跟另一端的軟硬件建立語音通信鏈路,打通鏈路就能把語音取回來,跟嘴巴產生的聲音去做對比。

有了上下行切分,我們就可以在實驗室實現客觀測試環節,但想要做到可重複、比較準確的數據採集和分析,仍需關注:

  1. 可控的、準確的輸入輸出接口:需要專門的人工頭去模擬嘴產生語音的聲場特性,模擬耳朵採集到的聲音效果,以及要保證硬件設備準確實施信號的注入和採集。
  2. 準確的、可復現的客觀環境:需要專門的聲學房間,隔絕外界干擾,還需要可復現的噪聲模擬方式,需要反覆不斷在同一場景下去實驗噪聲抑制算法。
  3. 準確可控的網絡條件:對語音質量造成最大影響的是網絡丟包,如果數據沒有完整傳輸或收到,實際的語音質量是無法保證的,這也是實驗各種網絡處理策略正確性和丟包補償算法的必備條件。

多媒體實驗室客觀測試典型方案

多媒體實驗室目前所用的典型客觀測試方案簡單示意圖如下:

整個測試流程符合現在電信界的國際標準,包括ITU、ETSI等,例如評估手機用的3GPP TS 26.131/32,電信業界評估VoIP通信用的ETSI202 739/740,以及北美評估VoIP通信用的TIA 920.110/120/130等。

測試信號和流程也符合ITU-T的定義,比如P.501對於測試信號的定義,P.502對於測試分析方法的定義,P.340在免提場景對於一些特殊的測試流程的定義,以及最重要的評估語音質量的模型P.863的定義。

噪聲抑制評估也按照ETSI 定義的標準執行,比如根據用EG202 396去模擬噪聲,ES103 106去分析模擬算法所帶來的損傷等。

以上就是騰訊多媒體實驗室音頻技術專家易高雄的完整分享,幫助大家從語音質量界定、主觀感受因素、目標、影響因素、模型、方案等方面瞭解如何進行語音質量評估。

講師簡介

易高雄,騰訊多媒體實驗室音頻技術專家。易高雄於2019年加入騰訊多媒體實驗室,擔任多媒體實驗室質量平臺部音頻技術專家,主要負責實時音視頻SDK及雲會議的語音質量評估和測試工作。加入騰訊前,易高雄於2007年至2017年在中國信息通信研究院泰爾實驗室負責通信終端的音頻測試業務及相關標準制定,2017年至2019年加入HEAD acoustics中國子公司負責電信部門,任電信行業總監。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章