騰訊雲大數據:神盾首創非對稱聯邦學習,深度保障數據隱私

導語:在過去的幾年中,我們見證了大數據及人工智能技術的飛速發展,許多機構卻依舊苦於數據數量少、質量低等難題而無法將前沿理論商業化落地。助力像石油般寶貴的數據突破隱私保護的條框限制並實現其價值的流通,對相關產業的發展起着至關重要的作用。在上一篇文章中,我們簡要介紹了騰訊“神盾-聯邦計算”平臺的誕生背景和數據安全與隱私保護技術亮點。這次,我們着重選取本產品首推的“非對稱聯邦學習” (Asymmetrical Federated Learning, AFL) 範式進行介紹。該範式旨在全面保護數據集的樣本ID、特徵和標籤的隱私安全,徹底解除在不平衡的 (unbalanced) 聯邦計算系統中,中小企業對敏感用戶ID泄露問題的擔憂。

文章作者:劉洋,騰訊神盾-聯邦計算平臺項目組

一、研究背景

 

在風控、營銷、推薦、AI等主流業務中,騰訊“神盾-聯邦計算”平臺以底層強有力的隱私保護技術爲支撐,以上層先進高效的信息分享、數據挖掘、人工智能算法爲出口,向包括企業、學校、醫院和政府等在內的各類獨立機構提供聯邦計算系統的無門檻搭建、計算、建模和推理等服務。騰訊“神盾-聯邦計算”平臺旨在撮合有數據需求的業務方和有價值變現需求的數據方之間展開合作。在合作過程中,神盾秉承始終保持各機構原始數據安全的原則,令各機構公平地享受聯邦計算成果。

爲了達成以上目標,騰訊“神盾-聯邦計算”平臺在數年來的孵化和成長中,逐漸吸納了數據安全與隱私保護領域的兩大核心技術:

  1. 以不經意傳輸 (Oblivious Transfer, OT)、祕密分享 (Secret Sharing, SS) 和同態加密 (Homomorphic Encryption, HE) 爲代表的安全多方計算 (Secure Multiparty Computation, MPC) 技術。該類技術通常以在分佈式隱私數據之上的一般函數求值爲目標,在半個多個世紀發展中漸漸形成了嚴格的精度、效率和安全性度量。

  2. 以聯邦學習 (Federated Learning, FL) 爲代表的面向隱私保護的分佈式機器學習 (Privacy-Preserving Distributed Machine Learning, PPDML) 技術。該類技術通常以將現有的隱私保護技術巧妙地集成到經典的數據挖掘和統計學習算法中爲目標。由於許多模型訓練所基於的最優化及貪心算法計算量龐大,所以該類技術對高計算效率和低通信複雜度有着狂熱的追求。

從上圖可以看出,在騰訊“神盾-聯邦計算”平臺的底層技術棧中,PPDML與MPC並不僅僅是單純的並列關係。正如以上第 (2) 條中提到,PPDML通常結合了MPC的諸多經典安全技術,對學業界常見的機器學習算法做隱私保護形式的改造。實際上,在許多實際業務場景中,尤其是現如今的金融風控和精準營銷場景等中,相關大型企業已經無比擅長利用成型的機器學習系統,對自己掌握的用戶的高維特徵和歷史行爲標籤做數據挖掘,最後基於挖掘得到的機器學習模型對新用戶做業務預測,達到降低信用風險、打壓黑灰產、擴大市場份額和減少獲客成本等目的。因此,相對於MPC本身,與現行機器學習系統更貼近的PPDML技術擁有更強的實際業務場景訴求,並且,這種訴求更多來自於缺乏大規模、高質量數據集的中小企業。

以騰訊“神盾-聯邦計算”平臺頻繁使用的PPDML下的FL技術爲例。在縱向FL的標準範式 [1] 中,參與方依次執行以下步驟:

  1. 加密實體對齊 (encrypted entity alignment):參與方採用MPC技術獲取所有參與方掌握的樣本ID交集,而不暴露ID非交集內容。這裏通常採用爲MPC中的隱私集合求交 (Private Set Intersection, PSI) 技術。

  2. 加密模型訓練 (encrypted model training):每一個參與方遵從預設的聯邦協議,基於自己掌握的原始數據計算獲得中間變量,將加密或混淆後的中間變量與其他參與方交互,以期合作訓練獲得高質量的機器學習模型。在聯邦協議的執行過程中,各參與方的隱私數據集的特徵和標籤隱私被重點關注和保護。

以兩方FL爲例,上述的FL標準範式可以被下圖表示:

可以看出,兩方的ID量級相當,被默認成一種強強聯手形態的平衡的 (balanced) 多方知識分佈。的確,FL標準範式通過第 (1) 步保證了樣本ID非交集內容的隱私安全,通過第 (2) 步保證了兩數據集的特徵與標籤隱私安全。然而,它卻允許樣本ID交集內容成爲必向各方公開的信息。以下數值實驗量化了FL標準範式的這種缺陷造成的樣本ID隱私泄露程度。

假設樣本ID全集爲全國人手機號,共14億個,而兩參與方Alice和Bob各掌握8億個手機號,分別是bc + cd和bc + ab。進一步地,我們假設雙方有6億手機號的交集bc。另有4億手機號de不被雙方所掌握。這種ID分佈可以由下圖表示:

 

 

那麼,在接入FL標準範式前,若Alice在手機號全集中均勻隨機的抽取一個ID,那麼此ID在Bob所掌握的ID中的概率爲

在接入FL標準範式後,同樣的做法將使Alice基於觀察給出三種不同推斷:

 

 

Alice觀察ID落在哪個區域

 

區域佔比

 

Alice猜測ID屬於Bob掌握的概率

 

備註

 

(a, b) 或 (d, e)

 

6 / 14

 

2 / 6 = ab / (ab + de)

 

Alice無法完全確認該ID的所屬區間

 

(b, c)

 

6 / 14

 

1

 

Alice完全確認該ID屬於交集,即屬於Bob掌握

 

(c, d)

 

2 / 14

 

1

 

Alice完全確認該ID既不屬於交集又被自己掌握,即Bob不掌握

 

 

綜上,用條件概率方式計算得到此ID被Bob掌握的概率爲

因此,接入FL標準範式使得Alice對Bob樣本ID的知識增益爲

這25%也可視爲Bob對Alice的隱私泄露量。該隱私泄露量並不高,貌似可接受。然而,在聯邦計算的實際業務場景中,更多的是不平衡的多方知識分佈,即強弱聯邦系統。這時,該風險變得更爲嚴重。通常,其中的強勢方爲社交媒體公司、大型國企和大型銀行等大型機構,掌握較大的ID空間;而弱勢方則爲小型的遊戲公司、借貸公司、保險公司和互聯網平臺,它們的ID空間較小,對於這些弱勢方來說,掌握的樣本ID可能是高額違約用戶、高理賠客戶、黑灰產賬戶等,每一條樣本ID的獲取都意味着高昂成本的付出,這些ID本身應當被視爲最高等級的隱私信息之一。

在不平衡的聯邦計算系統中,Bob的隱私泄露量會怎樣變化?我們重新回到剛纔的數值實驗,令Bob爲弱勢的中小企業,其掌握有60萬ID,其中與Alice的交集爲50萬。這種知識分佈可以由下圖表示:

在這種情況下,接入聯邦前,若Alice在手機號全集中均勻隨機的抽取一個ID,那麼此ID在Bob所掌握的ID中的概率僅爲

接入聯邦後,Alice同樣的猜測行爲將形成以下條件概率分佈

 

 

Alice觀察ID落在哪個區域

 

區域佔比

 

Alice猜測ID屬於Bob掌握的概率

 

備註

 

(a, b) 或 (d, e)

 

6 / 14

 

0.001 / 6

 

Alice無法完全確認該ID的所屬區間

 

(b, c)

 

0.005 / 14

 

1

 

Alice完全確認該ID屬於交集,即屬於Bob掌握

 

(c, d)

 

7.995 / 14

 

1

 

Alice完全確認該ID既不屬於交集又被自己掌握,即Bob不掌握

 

根據條件概率計算,此ID被Bob所掌握的概率變成

此時,Bob對Alice的隱私泄露量高達

綜上,當多方知識分佈由平衡切換至不平衡時,Bob對Alice的隱私泄露量由可接受的25.0%提升至驚人的130000%。可見,在不平衡的聯邦計算系統中,弱勢方的隱私泄露量大大高於平衡態,增加了中小企業對接入聯邦計算平臺的安全顧慮。

爲了解決實用聯邦計算系統中的隱私保護缺陷,神盾率先提出非對稱聯邦學習範式,全方位保護弱勢中小企業的隱私數據。

 

二、非對稱聯邦學習範式

 

與標準聯邦學習範式相比,騰訊“神盾-聯邦計算”平臺獨創的非對稱聯邦學習範式通過對原有的兩個環節——加密實體對齊和加密模型訓練——做針對性的非對稱協議改造[2],實現對弱勢方隱私數據的全面保護。接下來,我們依次介紹兩環節的改造內容。

 

1. 非對稱加密實體對齊

 

在數據輸入到非對稱聯邦計算系統後,首先要做的就是非對稱版本的加密實體對齊環節。分別從兩個參與方的角度去看:

  1. 在弱勢方側,由於精確交集的獲知並不會對強勢方隱私ID構成較大威脅,所以非對稱範式允許精確交集的內容直接被弱勢方拿到。我們稱精確交集的元素爲Genuine樣本。

  2. 在強勢方側,根據數值實驗,精確交集的獲知將對弱勢方造成嚴重的ID隱私泄露。作爲折衷,非對稱範式僅允許強勢方拿到精確交集+混淆集合的內容。我們稱混淆集合的元素爲Dummy樣本。

這種非對稱加密實體對齊的輸出分佈可以從下圖看出。

 

 

這種輸出分佈具備以下兩個特點:

  1. 強勢方無法從非對稱加密實體對齊的輸出集合中分辨哪些爲Genuine樣本,哪些爲Dummy樣本;

  2. 精確交集與混淆集合的大小比例,即Genuine與Dummy樣本的數量比例,直接影響非對稱範式對弱勢方樣本ID的隱私保護力度:當比例非常小時,精確交集遠遠小於混淆集合,強勢方難以從輸出分辨哪些爲Genuine樣本,弱勢方的樣本ID安全性極高;當比例升高時,這種分辨行爲變得容易,弱勢方樣本ID的安全性持續降低;當比例爲無窮時,非對稱加密實體對齊退化爲標準版本,不再具備保護弱勢方的樣本ID隱私的能力。

爲了量化 (2) 中提到的精確與混淆比例,我們引入非對稱指數λ,令其落在[0, 1],滿足

(強勢方ID數量 / 精確交集ID數量)^λ = (混淆集合ID數量 + 精確交集ID數量) / 精確交集ID數量

可見,當λ=0時,混淆集合爲空,此時非對稱對齊退化爲標準對齊,安全性最低;λ越大,混淆集合越大,安全性越高;當λ=1時,混淆集合達到最大,安全性最高。

以下表格反映了數值實驗中,λ=1的非對稱聯邦對Bob隱私泄露量的降低效果。

 

 

 

 

標準聯邦學習範式

 

非對稱聯邦學習範式

 

平衡聯邦計算系統

 

25.0%

 

25.0%

 

不平衡聯邦計算系統

 

130000%

 

25.0%

 

從以上表格可以看出,在不平衡的聯邦計算系統中,神盾獨創的非對稱聯邦學習範式將弱勢方的隱私泄露量從130000%大幅降低至平衡聯邦的水平25.0%,安全性大幅提升,徹底解除中小企業對接入聯邦計算平臺的安全顧慮。

值得一提的是,非對稱加密實體對齊的具體實現可以由多種經典隱私保護技術完成,如1978年Pohlig Hellman提出的交換加密方法[3],或神盾獨創的交換仿射密碼。本篇文章中,我們不贅述相關實現原理。

 

2. 非對稱加密模型訓練

 

從已介紹的非對稱加密實體對齊環節可以看出,非對稱改造使原有對齊方式失去了部分對齊功能,即強勢方沒有獲得精確交集。這使得在後續的聯邦加密模型訓練環節中,每輪信息交互之後,強勢方無法直接將逐樣本的中間變量與對應樣本精確匹配。爲了能夠繼續保護精確交集信息不被強勢方獲知,又能準確執行後續加密模型訓練環節,得到正確結果,騰訊“神盾-聯邦計算”平臺首次提出Genuine-with-Dummy方法,非對稱化已有的加密模型訓練環節。該方法的思想簡述如下,在逐樣本的中間變量的計算和交互時,滿足:

  1. 在弱勢方側,對精確交集中的Genuine樣本,遵從標準聯邦協議執行計算,得到中間變量v;對混淆集合中的Dummy樣本,根據計算機制捏造對應的不變元 (identity) e,例如加法羣的0,乘法羣的1和函數複合羣的f(x)=x等。將v和e混合在一起發送給強勢方。

  2. 在強勢方側,遵從標準聯邦協議執行計算。

以下圖爲例。

在聯邦協議的某個子程序subroutine()執行過程中,弱勢方對每個Genuine樣本計算標準中間變量v,並對每個Dummy樣本捏造不變元e。將v和e混合在一起加密發送給強勢方。在這個過程中,我們強調

  1. 由於不變元e具備不改變相應算子運算結果的性質,Genuine-with-Dummy方法保證了subroutine()的計算結果在有無e輸入的情況下結果相同,進一步保證了非對稱加密模型訓練產生的模型效果與標準版本相同。

  2. 在現有的聯邦協議中,e和v通常在發送前使用包括語義安全的同態密碼系統在內的成熟隱私保護工具加密,如Paillier密碼[4]和神盾獨創的隨機化迭代型仿射密碼 (Randomized Iterative Affine Cipher)。在這種情況下,即便是對大量Dummy樣本捏造相同的不變元e,加密得到的密文也各異,強勢方無法從密文語義判斷哪些樣本爲Dummy,持續保證Genuine樣本的隱私安全。

以加密邏輯迴歸模型訓練爲例,我們知道,與其他廣義線性模型相同,邏輯迴歸似然函數的梯度是標量向量乘積之和的形式,即

一種業界通用的聯邦邏輯迴歸算法核心在於由標籤持有方Bob計算、加密和發送逐樣本的中間變量f給Alice,由Alice在密文空間計算局部梯度。爲了實現非對稱加密模型訓練,在Genuine-with-Dummy方法的指導下,Bob對每個Dummy樣本捏造f=e,其中e是加法不變元零。如下算法

這樣,在無感知哪些樣本爲Dummy的前提下,Alice以非對稱形式計算得到與標準範式相同的局部梯度結果。

以下數值實驗以MNIST數據集之上的邏輯迴歸爲例,其中用到的底層聯邦協議基於騰訊大數據團隊研發的PowerFL聯邦學習框架。所有實驗均在500分鐘內完成。這些實驗反映了非對稱聯邦學習範式相對於標準範式具備保持計算結果精度的優點。

三、結語

這篇文章簡介了騰訊“神盾-聯邦計算”平臺團隊用新穎的角度定位到了業界通用的標準聯邦學習範式中弱勢方數據集隱私泄露問題,針對該問題,神盾首創非對稱聯邦學習範式,能夠在保護弱勢方數據樣本ID隱私的前提下完成常見的聯邦計算任務,並通過創新的Genuine-with-Dummy方法,保障非對稱範式的計算成果逼近標準範式。

參考文獻

  1. Yang, Qiang, et al. "Federated machine learning: Concept and applications." ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.

  2. Liu, Yang, Xiong Zhang, and Libin Wang. "Asymmetrically Vertical Federated Learning." arXiv preprint arXiv:2004.07427(2020).

  3. Pohlig, Stephen, and Martin Hellman. "An improved algorithm for computing logarithms over GF (p) and its cryptographic significance (Corresp.)." IEEE Transactions on information Theory 24.1 (1978): 106-110.

  4. Paillier, Pascal. "Public-key cryptosystems based on composite degree residuosity classes." International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章