乾貨 | 清華大學鄭方:語音技術用於身份認證的理論與實踐

本講座選自清華大學語音和語言技術中心主任鄭方教授近期於清華大數據“技術·前沿”系列講座上所做的題爲《語音技術用於身份認證的理論與實踐》的演講。

以下爲演講的主要內容:

鄭方:今天,我所講的關於語音技術用於身份認證的理論與實踐,主要分爲兩個方向:

  • 一是更高的安全保障
  • 二是更低的隱私泄露

內容則分成四個方面:

  • 一是身份認證的技術要求
  • 二是語音信號的特點分析
  • 三是安全保障和隱私保護
  • 四是語音處理技術的實踐

一、身份認證的技術要求

1. 網絡空間身份認證

“網絡空間身份認證”事關新時代的國家安全、經濟安全、社會穩定、民衆福祉等,這其中包括五個方面:

  • 一是網絡空間已成爲國際反恐新陣地
  • 二是網絡安全風險向更多終端蔓延;
  • 三是信息資源共享開放面臨認證瓶頸;
  • 四是個人信息倒賣助長“黑色產業鏈”;
  • 五是認證漏洞威脅公民財產生命安全。

2. 身份認證的三個層級

網絡空間身份認證分爲三個層級:第一層級是實名;第二層級是實證;更高的層級是實人,即人本身必須是真實的。

3. 各國政府解決方案和路線圖比較

各國政府解決方案和路線圖也各有不同,歐美等發達國家在這方面早有佈局。

比如,歐盟於2006年發佈了《2010年泛歐洲eID管理框架路線圖》(eID即電子身份證),計劃用五年實現歐洲聯盟電子政務的身份管理。

美國於2011年發佈了《網絡空間可信身份國家戰略》,計劃用十年的時間,建設一套公民的身份認證生態體系。

中國起步比較晚。2013年底,中國通信標準化協會專門設立了“網絡空間身份管理標準工作組”,公安部三所正在牽頭制定30多項eID國家及行業標準。

另外,公安部一所在2016年研發了“網絡可信身份認證服務平臺”,每個人都可在網上生成終生唯一編號的“身份證網上副本”;同時,由公安部一所牽頭,清華大學也參與共建了多維身份識別和可信認證國家工程實驗室。

2012年7月,爲了滿足市場需求和應付網上驗證的要求,線上快速身份驗證聯盟(FIDO)成立。它主要通過兩個子協議實現安全的登錄,第一個協議UAF(通用認證框架),支持指紋、語音、虹膜等生物特徵識別;第二個協議U2F是關於使用PIN和USB棒或者支持NFC手機的認證協議。

4. 生物特徵(生理特徵+行爲特徵)

我們發現,不管是中國公安部一所還是FIDO聯盟,都已經開始考慮使用生物特徵。那麼什麼是生物特徵呢?生物特徵分爲生理特徵和行爲特徵。其中,生理特徵包括指紋、人臉、虹膜、掌紋、DNA等,生理特徵的最大特點是從出生到去世基本不變

第二類特徵是行爲特徵。它既有生理方面的一些特徵,同時又有一些行爲方面的特徵;比如,簽名、步態、聲紋。

可以參考的第一個事件是去年12月26號在廣州市的南沙區推出的微信身份證“微證”,第二個事件是江西共青城做的一個網絡電子身份標識的手機貼膜卡(SIMEID)。

5. 公民關注的焦點

公民關注的焦點主要分爲兩個方面:

  • 一是生物特徵的安全性——防攻擊性能如何?
  • 二是生物特徵的隱私性——生物特徵丟了怎麼辦?

所以,網上出現一句話“丟臉即丟人”,這是最大的問題。

我們發現生理特徵具有很多類似的特點,即不可撤銷性。比如,虹膜是不能防攻擊的。

同時,指紋識別、人臉識別也具有不能防攻擊的特性。

刷臉也存在安全問題,只需採用一些傳統方法,就可以輕易攻擊某些基於AI安全手段的系統。

歐盟於今年5月25日發佈了一個GDPR條例,即通用數據保護規範。它是對我們企業影響非常大的條例,不僅是適用於歐盟的組織,而且適用於在歐盟擁有客戶和聯繫人的組織;只要跟歐盟有關係,它都會保護,所以對產業具有非常巨大的影響。

無監督身份認證的技術要求包含五個方面:

  • 一是人證合一性,用來進行身份認證的特徵,一定要具有唯一性,並且識別技術要有準確性;
  • 二是不易僞造性
  • 三是意圖真實性
  • 四是證據可溯性
  • 五是認證便宜性

二、語音信號的特點分析

語音特徵具有的優勢包括:

  • 第一,語音獲取自然、方便,易於接受;
  • 第二,語音採集和傳輸成本低廉,使用簡單;
  • 第三,用戶交互性強,易防止假冒闖入;
  • 第四,可以結合業務
  • 第五,可以體現用戶真實意圖

它的劣勢包括:

  • 一是不直觀,看不見摸不着;
  • 二是時變性,隨着年齡等會有變化;
  • 三是弱可獲得性,不同於人臉可以從身份證系統獲得,聲紋每次需要預留;
  • 四是弱抗噪性,類似於手指(指紋)髒了。

總結一下,語音主要有以上三個比較突出的特點。

上圖是計算機眼中的語音。

語音信號是一維信號,形簡意豐,包含很多豐富的信息。比如,語音內容、說話人、語音、性別、情感等。

如上圖所示,語音信號包含多層信息。第一層面是語言信息,句子、句式、焦點、因素等都可以在其中體現出來;第二層面是副語言信息,包括音高、音質量、語調等,蘊含了說話人的態度、情感、意圖、方言等等多方面信息;第三層非語言信息,比如健康狀況、性別、年齡等。

身份識別是指對人的身份通過語音信號中所蘊含的信息來進行判別的自動化技術。

總體來講,可以分爲四類:

  • 第一,聲紋辨認。判定測試語音屬於目標說話模型集合中哪一個人。辨認是“多選一”的 “選擇”問題;
  • 第二,聲音確認。確認測試語音是否來自所聲明的目標說話人。確認是“一對一”的“判別”問題;
  • 第三,說話人檢出。判斷測試語音中是否存在目標說話人;
  • 第四,檢出的擴展。判斷目標說話人在測試語音中的發音位置。

第二種分類方法是按照說話內容的限定性,分爲:

  • 文本相關
  • 文本無關
  • 文本提示

所謂文本無關是指聲紋識別系統對發音內容無任何要求,說話人可隨意錄製或發音一定長度的語音;所謂文本相關是指聲紋識別系統要求說話人必須發音事先指定的文本內容;所謂文本指示是指聲紋識別系統從訓練文本庫中隨機提取若干詞彙組合後提示用戶發音的文本內容,一般需要結合ASR。

對於聲紋確認性能的評價,我們會使用到EER 和DET曲線。DET曲線由兩個座標組成,橫座標是FAR,縱座標是FRR,FAR是指錯誤的預警、錯誤的接受,與安全性對應;FRR是指錯誤拒絕,與用戶體驗對應。當兩個錯誤率相等時,即FAR=FRR,稱之爲等錯誤率(EER)。等錯誤率可以平均地表現系統的好壞,衡量的標準是等錯誤率離原點越近系統越好,離原點越遠系統越差。

同時,我們也會用到檢測代價函數(DCF),DCF值是FAR和FRR的加權和。DCF值將FAR和FRR不同重要性量化,值越小,系統性能越好越好。

聲紋識別辨認有兩種:

  • 一是開集聲紋辨認
  • 二是閉集聲紋辨認

對於聲紋識別的技術發展歷程,我們可以按照兩個維度來看,一是特徵域,二是模型域,每個域的發展都經歷了非常漫長的過程。

現在比較多的模型是GMM—UBM,它將GMM(高斯混合模型)和UBM(通用背景模型)放到一起來進行說話人識別,提高了準確率。

說話人識別技術經歷的很多發展基本很多都是利用了一個概念,即Supervector(超向量)。

說話人識別需要解決的問題非常多,可以分爲三類:

  • 第一是環境相關的魯棒性,包括背景噪音、跨信道、多說話人;
  • 第二是說話人相關的魯棒性,包括身體條件變化、年齡變化、說話方式變化;
  • 第三是應用相關的魯棒性,比如防假冒攻擊、短語音的用戶體驗、真實意圖檢測、語音編碼兼容性等。

三、隱私保護和安全保障

我們發現,身份認證其實涉及了安全性和方便性的一對矛盾共同體。有時候完全強調方便性不行,完全考慮安全性也不行。

聲紋識別系統的常見攻擊手段分爲直接攻擊和間接攻擊,可能的攻擊點存在8個方面,如上圖所示。

常見的攻擊手段有四類:

  • 第一類叫聲音模仿
  • 第二類叫語音合成
  • 第三類叫語音轉換
  • 第四類叫語音重放

其中,聲音模仿是模仿說話韻律和說話風格,未見研究證明其具有顯著威脅性,暫無防禦的必要性。

語音合成是合成特定說話人的語音。一方面,可以通過參數合成方法,估計關鍵參數;另一方面,可以通過發聲器模型,人工製造語音發生攻擊。

語音合成和語音轉換都要通過一個計算機系統把聲音生成出來,然後再播放。這個放的過程和錄音重放是一樣的,所以從研究的角度講,只要把錄音重放檢測做好了,其他的問題便都可以解決。

實際上,錄音重放的檢測有很多方法可以做到。比如數據追蹤,即對比當前語音和歷史驗證語音是否存在相同聲紋水印。

所謂信道檢測是指檢測模型預留和識別測試之間的信道差異。

如上圖所示,既有信道模式噪音,又有遠場混響。

基於倒譜分析設計各類特徵,區分重放前後的語音,不同子頻帶具有不同的錄放檢測功能。

還有一種方法是利用活體檢測麥克風所接收的語音是來自真人發音還是機器放音。

第一個方案是噴麥現象的檢測。比如,任何一個正常人說話,都會有“噗”的聲音。但是如果是錄音機放的聲音,就沒有噴麥現象。

更復雜的是通過多普勒雷達,人在正常說話的時候,嘴巴一張一合,口腔中有不同的反射。用一個發射器發出20K赫茲的信號,出來之後,如果這邊是真人在說話,信號經過口腔的反射,接收到的反射頻率不一樣,老在變;但如果是錄音機放的聲音,就沒有這個變化。

所以,我們發現不管通過軟件還是硬件,聲紋的防攻擊都是低成本。

我們總結一下發現,應對直接攻擊的對策是用錄音檢測,間接攻擊的對策是加強軟件安全,修復系統漏洞。

聲紋的防攻優勢,一是特徵提取,體現了多層。我們在特徵提取信號域要進到頻率域,做一些處理,最後再到倒譜域,這才取得的第一道特徵。

最近的JFA、i-vecter等是基於來自GMM-UBM的超向量。

防攻擊的第一個是基礎策略,綜合利用語音識別和聲紋識別。

第二是增強策略,比如錄音檢測、用戶自定義密碼等。

脣語有語音的信息、身份的信息,並且和語音很像,脣語和語音結合起來就是雙特徵雙活體檢測

什麼叫被知情?如果沒有用戶真實意圖檢測的話,會出現上圖所示的場景:“老公,看一眼手機唄”。如果“老公”一看,就會刷臉支付。

語音的特點是非常方便,它是更高安全,更低成本和更低隱私的聲紋+的結構。

除了虹膜在人證合一準確率方面是最好的之外,聲紋在不易僞造、意圖真實、證據可追溯、認證便宜方面都是最好的,符合性最大。

上表是我們把各種不同的生物特徵進行的一個比較。其中,聲音的隱私風險最低。用一句話表達的話,便是“失聲(音)不失身(份)”。

“聲紋+”方案有三個特點:

  • 一是高精度
  • 二是高安全
  • 三是低隱私

爲什麼有這三個特點呢?因爲有三個方面的原因。一是語音信號本身的特點;二是語音算法的優勢;三是低的成本。低的成本包括信號本身的採集和傳輸,也包括計算成本都很低,所以“聲紋+”是最好的解決方案。

四、語音處理技術的實踐

其他的AI領域包括社保、汽車、移動、保險、國家信息中心、公安系統等。

公有云的試驗已經逐步推開,涉及的領域包括移動金融、電子政務、社保的身份認證、電話反欺詐、汽車鎖、考勤、門禁等領域。

上圖是“聲紋+”的未來的場景,特點是便宜(方便和低成本)。在加油站、賓館、無人商店、ATM機都可以裝一些麥克風,需要認證的時候對它說一下。而不需要依賴於任何一個企業,任何一個應用或平臺。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章