乾貨 | 清華大學鄭方：語音技術用於身份認證的理論與實踐

本講座選自清華大學語音和語言技術中心主任鄭方教授近期於清華大數據“技術·前沿”系列講座上所做的題爲《語音技術用於身份認證的理論與實踐》的演講。

以下爲演講的主要內容：

鄭方：今天，我所講的關於語音技術用於身份認證的理論與實踐，主要分爲兩個方向：

一是更高的安全保障；
二是更低的隱私泄露。

內容則分成四個方面：

一是身份認證的技術要求；
二是語音信號的特點分析；
三是安全保障和隱私保護；
四是語音處理技術的實踐。

一、身份認證的技術要求

1. 網絡空間身份認證

“網絡空間身份認證”事關新時代的國家安全、經濟安全、社會穩定、民衆福祉等，這其中包括五個方面：

一是網絡空間已成爲國際反恐新陣地；
二是網絡安全風險向更多終端蔓延；
三是信息資源共享開放面臨認證瓶頸；
四是個人信息倒賣助長“黑色產業鏈”；
五是認證漏洞威脅公民財產生命安全。

2. 身份認證的三個層級

網絡空間身份認證分爲三個層級：第一層級是實名；第二層級是實證；更高的層級是實人，即人本身必須是真實的。

3. 各國政府解決方案和路線圖比較

各國政府解決方案和路線圖也各有不同，歐美等發達國家在這方面早有佈局。

比如，歐盟於2006年發佈了《2010年泛歐洲eID管理框架路線圖》（eID即電子身份證），計劃用五年實現歐洲聯盟電子政務的身份管理。

美國於2011年發佈了《網絡空間可信身份國家戰略》，計劃用十年的時間，建設一套公民的身份認證生態體系。

中國起步比較晚。2013年底，中國通信標準化協會專門設立了“網絡空間身份管理標準工作組”，公安部三所正在牽頭制定30多項eID國家及行業標準。

另外，公安部一所在2016年研發了“網絡可信身份認證服務平臺”，每個人都可在網上生成終生唯一編號的“身份證網上副本”；同時，由公安部一所牽頭，清華大學也參與共建了多維身份識別和可信認證國家工程實驗室。

2012年7月，爲了滿足市場需求和應付網上驗證的要求，線上快速身份驗證聯盟（FIDO）成立。它主要通過兩個子協議實現安全的登錄，第一個協議UAF（通用認證框架），支持指紋、語音、虹膜等生物特徵識別；第二個協議U2F是關於使用PIN和USB棒或者支持NFC手機的認證協議。

4. 生物特徵（生理特徵+行爲特徵）

我們發現，不管是中國公安部一所還是FIDO聯盟，都已經開始考慮使用生物特徵。那麼什麼是生物特徵呢？生物特徵分爲生理特徵和行爲特徵。其中，生理特徵包括指紋、人臉、虹膜、掌紋、DNA等，生理特徵的最大特點是從出生到去世基本不變。

第二類特徵是行爲特徵。它既有生理方面的一些特徵，同時又有一些行爲方面的特徵；比如，簽名、步態、聲紋。

可以參考的第一個事件是去年12月26號在廣州市的南沙區推出的微信身份證“微證”，第二個事件是江西共青城做的一個網絡電子身份標識的手機貼膜卡（SIMEID）。

5. 公民關注的焦點

公民關注的焦點主要分爲兩個方面：

一是生物特徵的安全性——防攻擊性能如何？
二是生物特徵的隱私性——生物特徵丟了怎麼辦？

所以，網上出現一句話“丟臉即丟人”，這是最大的問題。

我們發現生理特徵具有很多類似的特點，即不可撤銷性。比如，虹膜是不能防攻擊的。

同時，指紋識別、人臉識別也具有不能防攻擊的特性。

刷臉也存在安全問題，只需採用一些傳統方法，就可以輕易攻擊某些基於AI安全手段的系統。

歐盟於今年5月25日發佈了一個GDPR條例，即通用數據保護規範。它是對我們企業影響非常大的條例，不僅是適用於歐盟的組織，而且適用於在歐盟擁有客戶和聯繫人的組織；只要跟歐盟有關係，它都會保護，所以對產業具有非常巨大的影響。

無監督身份認證的技術要求包含五個方面：

一是人證合一性，用來進行身份認證的特徵，一定要具有唯一性，並且識別技術要有準確性；
二是不易僞造性；
三是意圖真實性；
四是證據可溯性；
五是認證便宜性。

二、語音信號的特點分析

語音特徵具有的優勢包括：

第一，語音獲取自然、方便，易於接受；
第二，語音採集和傳輸成本低廉，使用簡單；
第三，用戶交互性強，易防止假冒闖入；
第四，可以結合業務；
第五，可以體現用戶真實意圖。

它的劣勢包括：

一是不直觀，看不見摸不着；
二是時變性，隨着年齡等會有變化；
三是弱可獲得性，不同於人臉可以從身份證系統獲得，聲紋每次需要預留；
四是弱抗噪性，類似於手指（指紋）髒了。

總結一下，語音主要有以上三個比較突出的特點。

上圖是計算機眼中的語音。

語音信號是一維信號，形簡意豐，包含很多豐富的信息。比如，語音內容、說話人、語音、性別、情感等。

如上圖所示，語音信號包含多層信息。第一層面是語言信息，句子、句式、焦點、因素等都可以在其中體現出來；第二層面是副語言信息，包括音高、音質量、語調等，蘊含了說話人的態度、情感、意圖、方言等等多方面信息；第三層非語言信息，比如健康狀況、性別、年齡等。

身份識別是指對人的身份通過語音信號中所蘊含的信息來進行判別的自動化技術。

總體來講，可以分爲四類：

第一，聲紋辨認。判定測試語音屬於目標說話模型集合中哪一個人。辨認是“多選一”的 “選擇”問題；
第二，聲音確認。確認測試語音是否來自所聲明的目標說話人。確認是“一對一”的“判別”問題；
第三，說話人檢出。判斷測試語音中是否存在目標說話人；
第四，檢出的擴展。判斷目標說話人在測試語音中的發音位置。

第二種分類方法是按照說話內容的限定性，分爲：

文本相關
文本無關
文本提示

所謂文本無關是指聲紋識別系統對發音內容無任何要求，說話人可隨意錄製或發音一定長度的語音；所謂文本相關是指聲紋識別系統要求說話人必須發音事先指定的文本內容；所謂文本指示是指聲紋識別系統從訓練文本庫中隨機提取若干詞彙組合後提示用戶發音的文本內容，一般需要結合ASR。

對於聲紋確認性能的評價，我們會使用到EER 和DET曲線。DET曲線由兩個座標組成，橫座標是FAR，縱座標是FRR，FAR是指錯誤的預警、錯誤的接受，與安全性對應；FRR是指錯誤拒絕，與用戶體驗對應。當兩個錯誤率相等時，即FAR=FRR，稱之爲等錯誤率（EER）。等錯誤率可以平均地表現系統的好壞，衡量的標準是等錯誤率離原點越近系統越好，離原點越遠系統越差。