與文本內容無關的說話人識別概述——從特徵到超矢量

摘要:

      本文主要是對自動說話人識別技術的概述,重點強調文本無關的說話人識別技術。說話人識別已經研究了幾十年。我們給出了經典和先進的說話人識別方法。我們從自動說話人識別基礎開始談起,主要從特徵提取到說話人建模。我們闡述了先進的計算科技來解決魯棒性和session avariability 。近來提出的從矢量到超矢量爲說話人識別展開了一個全新的領域並且代表着技術發展趨勢。我們同時也討論了目前的說話人評估系統評估方法和發展。最後對說話人識別未來的發展方向做了討論。

正文

 第一部分

   說話人識別就是通過聲音識別出哪個人發出的這個聲音。沒有兩個人的聲音完全一致。一方面由於生理特徵的不同,例如聲道形狀、喉大小以及其他發音器官的不同,另一方面由於每個說話人的發音習慣的不同,例如方言、說話的韻律、腔調、習慣性用詞選擇等等。先進的說話人識別系統在利用第一個方面的特徵識別的同時,使用大量的特徵描述第二個方面的因素對發音的影響,目的在於達到更精準的識別。說話人識別的一個重要應用是在司法部門。包括兩個罪犯之間的電話通信。近幾年的熱點就是整合說話人識別到半自動語音分析系統。

  不僅司法部門,普通人也受益於說話人識別技術。根據預測,未來,說話人識別技術將被整合到以手機服務爲主的操作中,這樣說話人識別技術和語言識別技術可能會取代人類手動操作手機。一個例子就是通過手機自動進行密碼重設。這個自動語音服務的優點是顯而易見的——比起人類的操作通過數以千計的電話服務,自動語音服務有更大的工作吞吐量。事實上,過去幾年的說話人識別技術的研究主要集中在電話語音應用。

   除了電話語音應用,還有電視廣播,電話會議,活動中的視頻裁剪等方面的應用這些語音數據。從這些數據中提取元數據——說話主題,參與的說話人姓名,說話人性別,能夠進行信息的自動化搜索和檢索。speaker diarization,也就是什麼人什麼時候說的,目的在於從不同的參與者中提取出輪流說話的次序,是傳統說話人識別的擴展,主要應用於多說話人的語音處理中。

  在司法方面和speaker diarization 方面的說話人應用中說話人對於識別時不配合的。另一個方面,在電話語音服務和其他的可控途徑下的語音服務,說話人識別應用的使用者是配合的。另一方面,說話人識別系統可以分爲文本相關和文本無關的,在文本相關係統中識別的短語是固定的,之前給定的。例如,讓用戶隨機朗讀一系列數字。在文本無關的說話人識別系統中,對於哪個說話人說什麼語句沒有任何限制,因此在參考(在訓練中使用的說話人語句)和測試(實際說話人使用的語句)可能是完全不同的內容,說話人識別系統必須考慮 語音的錯誤匹配(take this phonetic mismatch into accout).文本無關的說話人識別系統對於下面兩個工作面臨更大的挑戰。

   通常講,在說話人識別系統的精準性,拼音多樣性(phonetic variability)是其中的一個重大困難.另一個比較大的困難就是發音環境、技術條件(半導體、信道影響),以及說話人自身因素如健康情況,心情或者年齡等的變化。通常來講,一個說話人兩端錄音的任何不同都可以稱之爲session variability.Session Variablity通常被描述爲訓練和測試環境的不匹配(mismatch)。這也是目前爲止說話人識別技術中最有挑戰性的問題。

    該文章描述了從1980s到目前爲止具有代表性的說話人識別技術的概述。另外,重點介紹目前代表性技術 從傳統的基於矢量的說話人模型到超矢量模型的轉換。本文主要爲開始學習說話人識別的人做一個研究問題和解決方案方面的概述。同時對語音科學家快速熟悉這一領域目前趨勢有用。閱讀本文前提是有信號處理和模式識別的基礎。

   第二部分 說話人識別基礎

  第三四部分闡特徵提取和說話人模型建模規則(principle)

  第五部分介紹魯棒性方法來處理生活噪音以及session variability mismatched condition 

  第六部分介紹目前火熱的超矢量分類和他們的session compasation(補償)

 第七部分介紹說話人識別效果評估 和give pointers to software packages 

 第八部分 羅列這個領域未來的趨勢

  第九部分 結論

第二部分

自動說話人系統的組成

        圖1.典型說話人識別系統組成。在註冊模塊,說話人模型在之前創建的背景模型下產生;在識別模塊,假設模型和背景模型進行匹配,背景分數用來歸一化初始分數

2.1特徵提取

語音信號中包含了很多與說話人判決無關的特徵,一個理想的說話人識別的特徵有以下特點:

   .。說話人之間的變量明顯,說話人自身變量不明顯

    。對於噪音和信道扭曲有魯棒性

    。在語音中出現的頻繁並且比較自然 occur frequently and naturally

    。在語音信號中容易檢測

    。很難被模仿

   。不受說話人的健康和聲音的長期變化的影響(年齡變化...)

   特徵的數量應該相對較少。傳統的隨機模型例如GMM(高斯混合模型)不能夠處理高維數據。爲了得到可靠的概率密度分佈,高斯混合模型的訓練樣例的數量會隨着特徵的數量呈指數性增長,這就是“高維詛咒”。在低維度上的計算可以很好的節省計算濟源。

   對於特徵有不同的分類方式,如圖2.從人類語音器官生理直譯的角度分類的話,可以分爲1)短時譜特徵 2)聲源特徵 3)頻譜時間特徵(spectro-temporal)4)韻律特徵 5)高級特徵。短時譜特徵如名字所示,根據每20ms-30ms的短時幀中計算得到。通常被描述爲短時頻譜包絡,這是個與聲色相關的聲學特徵。聲色,也就是 supralaryngeal聲道的共振特性。聲源特徵,就是聲音源頭的特性(聲門)。韻律和頻譜時間特徵可以跨越幾十或者數百毫秒,例如包括腔調和韻律。最後高級特徵,目的在於捕捉說話人會話級別的特徵,如使用語句的特徵(如感嘆詞的使用 “uhhh-huh” 習慣性短語的使用“you konw ”:oh yeah)

   那麼該用哪個特徵呢?這取決於目標應用,計算資源以及所獲得的說話人數據數量(both in developent and in run-time (開發階段和運行階段))以及說話人是否配合。剛開始做研究的 人員,可以從短時譜特徵開始,因爲他們比較容易計算並且識別效果較好。韻律和高級特徵有更好的魯棒性,但是識別能力較弱並且較容易模仿。例如,專業模仿人員通常都會改變被模仿者的音高輪廓(pitch contour)高級特徵同時需要考慮比較複雜的前端,例如聲學語音識別(automatic speech recognizer)總之,並不存在最好的特徵,特徵的選擇無非就是說話人識別、魯棒性、可實踐性之間的平衡。

 

   2.2 說話人模型

    通過使用說話人訓練語音中提取的特徵矢量,說話人模型會被存儲到系統數據庫。在文本相關的說話人識別的模型中,模型中的語音是詳細指明的,並且特徵之間存在時間依賴性(不知是否可以理解爲語音出現時間間隔一致)。文本相關的說話人確認和語音識別在模式匹配過程中有相似之處(do share similarities) 並且二者可以結合起來。

    在文本無關的模型中 經常用語音波形的特徵分佈進行建模而不是時間依賴性建模(temporal dependencies).注意,在與文本相關的說話人識別中,我們可以將測試和訓練語音進行時間對齊,因爲他們包含相同的的發音序列。然而,在文本無關的識別中,在測試和訓練語音的幀之間幾乎沒有相關性,在幀級別上的對齊幾乎不可能,因此將語音信號切分成音素或者比音素大的級別的(韻母 聲母 ..)可以用在前期處理中。還有,說話人模型可在音素級別上構架,這個方法在XXXX論文提到。也可以使用數據驅動單元替代嚴格的語言音素作爲切分單元。

    經典說話人模型可以被劃分爲模板模型和隨機模型,也稱爲參數模型和非參數模型。在模板模型中,測試數據和訓練數據的矢量特徵彼此相互比較,假設測試數據是訓練數據的不完整的複製品,數據的失真(扭曲)表示他們的相似度。Vector Quantization(矢量化)是文本無關和文本相關說話人識別模板模型中的代表性的例子。在隨機模型中每個說話人以未知概率源的形式建模,有固定的概率密度函數,訓練階段就是從訓練樣本中估計這些概率密度函數的參數。匹配階段就是計算測試語音和模型的相似度。高斯混合模型和隱馬爾科夫模型是目前最爲流行的文本無關或者文本相關的說話人識別模型。

    根據訓練範例,,模型可以分爲生成模型和判決模型,如GMM VQ這些生成模型對每個說話人估計特徵分佈,相反的,如ANN SVMs這些判決模型主要是對說話人邊緣建模。進一步討論參照XXX論文。

    總之,說話人識別的模型主要有VQ ,GMM ,SVM.在運行階段,一個未知聲音表示爲特徵矢量或者超矢量的集合——超矢量就是級聯了很多矢量,然後與目標說話人模型對比估計。

3.特徵提取

3.1短時譜特徵

  由於發音器官的運動產生語音,因此語音信號是次序變化的,因此,需要信號切分成20-30ms的一段一段信號,在每一段中建設信號是持續穩定的,每一段稱之爲一幀,頻譜特徵矢量就是從每一幀中提取出來的。

通常,每一幀都需要進行預加重和加窗處理,預加重就是提升聲音頻率,主要是加重由於聲門導致的向下的低密度的斜頻譜

另一方面,加窗是因爲離散傅里葉變換的有限長度影響。對於細節,參考XXX論文。

實踐中,窗函數的選擇沒有嚴格標準,儘管幀的長度是固定的,同步聲高分析也有人研究,如XXX論文。在XXX論文中顯示使用這種技術識別率會降低,然而在有噪音的情況下又會提升識別率。聲高依賴模型在研究在XXX論文。

     快速傅里葉變換是離散傅里葉變換的一個快速應用,將信號轉換成頻率成分。基於快速傅里葉變換分解信號的方式有基於非諧波的,非週期性方程的,和源自獨立成分分析(ICA)的基於數據驅動的。ICA研究基礎論文XXX。但是,離散傅里葉變換在在實踐中仍然是最有效和最簡單的方式。通常在變換中幅度譜會保留下來,因爲有相位譜沒有什麼重要性,但是在XXX論文中相位譜也有很重要的信息。

   離散傅里葉變換的幅度譜的形狀如圖3所示,稱之爲包絡,包含聲道的共振峯特性,並且這個特性包含說話人的重要信息。頻譜包絡的一個簡單模型對相鄰的頻帶使用帶通濾波器來做能量整合,從心裏聲學研究啓發,給窄帶分配更多的濾波器獲取更高分辨率來表示更低的頻率範圍。(???)

儘管窄帶能量值被直接用作特徵,在XXX論文,可以通過其他的變換使得維度進一步減少,稱爲梅爾倒譜系數。

在說話人識別中短時譜特徵主要是提取:MFCC、LPCC、LSF、PLP 下面詳細介紹這些特徵的概念和計算

MFCC :梅爾倒譜系數

LPCC :線性預測倒譜系數

LSF :線性頻譜頻率

PLP:感知線性預測

各個特徵之間可以相互補足結合提升識別準確率,有研究表明,信道補償比基本的特徵選擇更重要

信道補償:

3.2 聲音源特徵

 聲源特徵主要包含聲門振脈衝形狀和基頻。基頻就是聲帶振動快慢,3.4着重介紹。其他與聲門脈衝形狀相關的特徵如聲帶張開程度,持續時間,關閉時間,對聲音質量都有影響,可以稱之爲語氣、喘息、吱響和抑制等。假設聲門和聲道獨立,聲道參數可以在線性預測模型中估計,使用逆濾波器波形獲取源信號參數估計。另外一個方法就是聲帶閉合階段協方差分析,這會提升聲道評估,但是嘈雜環境中的閉合聲道評估是很困難的,例如,圖四是用簡單的逆濾波器的方法顯示信號線性預測殘差和聲門流動(flow)

逆濾波器信號的特徵也可以使用自相關的神經網絡方法提取。其他方法使用參數聲門流動(glottal flow)模型參數,倒普係數,和高階統計量也可以。

  有論文指出聲源特徵沒有聲道特徵的識別性高,但是融合這兩個特徵可以提升識別準確率。XXX論文也指出訓練聲源特徵的數據完全可以少於訓練聲道特徵的數據。這個可能的解釋就是升到特徵依賴於語音內容因此需要足夠多的數據訓練,而聲源特徵並不依賴語音內容,故而需要較少數據訓練。

3.3時間頻率特徵

  時間頻率描述了 共振峯過渡和能量調製細節,包含了說話人本身的特定信息。 一個通用的合併時間信息到特徵的方式有同感一階和二階倒數估計,稱爲delt△和double-delt △平方,以幀爲單位計算基礎係數的相鄰特徵係數。(13——>39的MFCC)還有兩個方法可能魯棒性更好,適用於線性迴歸或者正交多項式。同時還有時間頻率主成分原理和數據驅動的時間過濾器。

調製頻率——調製頻率代表子帶幅度包絡的頻率內容,潛在包含了說話速率和風格,

時間離散餘弦變換

FM-base 

3.4韻律特徵

基頻的確定

3.5 高級特徵、

4.說話人模型:經典方法

41.VQ矢量化

4.2 GMM 混合高斯模型

4.3 SVM 支持向量機

4.4其他方法 

 ANN

4.5 融合

5說話人識別的魯棒性

5.1Voice activity detection 聲音活動檢測

5.2 特徵歸一化

5.3說話人模型補償

5.4分數歸一化

6. 超矢量:近來研究趨勢

6.1什麼是超矢量

6.2 GLDS kernel SVM

6.3 高斯超矢量 SVM

6.4 MLLR超矢量SVM 

6.5高級超矢量SVM

6.6 歸一化超矢量 SVM 

6.7 因子分析技術

6.8 哪個超矢量技術我們應該使用?

7.識別性能評估和常用軟件包

7.1性能評估

7.2 說話人識別軟件包

 ALIZE Toolkit , Matlab Octave HTK Focal toolkit Torch

8.說話人識別技術展望

說話人識別中最具影響力的新技術:

UBM 

分數歸一化、校驗、合併 (Score normalization,calibration,fusion)

Sequence Kernak SVMs(支持向量機的序列核函數)

在SVM中使用韻律和高級特徵(Use of prosodic and high-level features with SVM)

語音識別中的發音歸一化(Phonetic Normalization using ASR)

明確會話變量模型和補償(Explicit session variability modeling and compensation)

雖然這些方法在說話人識別中很有效,但是這些方法需要大量數據驅動和大量數據來訓練背景模型,用於分數歸一化的隊列模型和會話模型以及說話人變量。這些數據需要標註和按照一定方式標註,這需要大量人工。對於分割出哪些數據用於訓練UBM模型,會話模型和分數歸一化是非常重要的,如果分割數據的情況不滿足運行環境要求,那麼識別準確率會大幅度下降,甚至到達不能接受的水平。

 因此,將這些技術用於實踐的關鍵在於使得這些方法對於數據集的選擇不那麼敏感。並且這些方法的實踐也需要大量的計算資源。還有就是目前技術訓練和測試就需要幾分鐘,在實時決策系統使用時有挑戰性的。需要進一步發現短時語音訓練和測試的方法。長數據處理的方法不一定適用於短數據任務。

國際說話人評測,主要關注technical  error sources,主要就是訓練和測試信道的錯誤匹配(在訓練和測試中使用不同的麥克風材料),例如感情,器官病症,年齡,注意力程度的影響。此外,還有語音模仿等問題。這就衍生出一個新的領域,抵制聲音生物識別技術的入侵

目前主要的技術進步在分類器設計和信道補償,主要依賴於短時譜特徵,儘管時間譜,韻律和高級特徵都是非常重要說話人識別特徵,但是我們還沒在這方面有所突破。僅僅將他們作爲對短時譜的補充。這也是未來研究的熱點,如何在不計算大量數據的情況下從時間譜和韻律特徵中獲取高級識別特徵。如何從語音信號中選取有代表性的說話人識別特徵仍然面臨巨大挑戰。

9.總結

本文介紹與文本無關的說話人識別技術,在有限制條件下識別率挺高,但是有外在不利因素時如錯誤匹配測試數據和訓練數據、有限的訓練數據、不平衡文本、背景噪音、不配合使用者情況下識別率很低。魯棒性的技術如特徵提取、特徵歸一化、模型域補償、分數歸一化都是必須的。說話人識別國際評測中呈現了先進的技術已經解決了很多挑戰:文本依賴性、信道影響、說話持續時間、交叉性談話。然而,很多問題仍待解決,如與人相關的錯誤語音源(human-related error sources),系統實時性,說話人識別分數的司法直譯。

感謝

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章