新機器學習庫TensorFlow Privacy問世:旨在保護敏感數據

在最近的一篇博文中,TensorFlow宣佈推出TensorFlow Privacy。這是一個開源庫,它允許研究人員和開發人員構建具有強大隱私保護功能的機器學習模型。基於強大的數學確定性(mathematical guarantees),使用本庫可以確保用戶數據無法通過訓練過程被記住。

機器學習在如今的在線產品和服務中非常普遍。谷歌認爲,爲了保護用戶隱私,把強大的隱私保護功能嵌入TensorFlow是非常重要的。爲什麼那麼重要呢?谷歌大腦(Google Brain)的產品經理Carey Radebaugh對此進行了解釋:

現代機器學習正越來越多地用於創造令人驚歎的新技術和用戶體驗,其中很多需要讓訓練機器負責地從敏感數據(例如個人照片或電郵)中學習。理想情況下,受過訓練的機器學習模型的參數應該編碼一般模式,而不是關於特定訓練示例的事實。

TensorFlow Privacy的引入符合谷歌去年發佈的負責的AI實踐承諾(Responsible AI Practices commitment),旨在“在這些[AI]系統中建立公平性、可解釋性、隱私和安全性”。谷歌除了遵循負責的AI實踐外,他們還希望讓外部開發人員在其構建的應用程序和產品中應用同樣的實踐。

TensorFlow Privacy的技術實現建立在差異化隱私理論(differentail privacy theory)之上,該理論通過提供一個衡量隱私保障的框架,以確保模型不會學習或記住用戶的詳細信息。

爲了證明TensorFlow Privacy的有效性,谷歌提供了一個訓練兩個模型的例子,其中一個模型具有基於TensorFlow Privacy庫的差異化隱私功能,而另一個沒有。這兩個模型是在標準Penn Treebank訓練數據集上訓練的。這兩個模型在對英語建模中都表現良好。如對於以下的財經新聞句子,二者都能夠獲得好分數。

There was little turnover and nothing to stimulate the market
South korea and japan continue to be profitable
Merchant banks were stronger across the board

但是,在某些領域,這兩個模型的得分天差地別。例如,使用傳統的訓練方法,以下這三個句子的得分都很高,也就是“在標準訓練過程中,有效地記住了內容”。相反,差異性隱私模型在這些句子上的得分很低,並被拒絕了。

Aer banknote berlitz calloway … ssangyong swapo wachter
The naczelnik stands too
My god and i know i am correct and innocent

在財經新聞的語境中,這三個句子似乎不常見。因此,這三個罕見的句子可以用來識別或揭示個人信息,因而使用敏感數據訓練就被拒絕了。Radebaugh進行了額外的解釋:

這兩個模型的差異在於,有隱私保護的模型不能記住異常的罕見序列。我們可以利用我們先前在神經網絡中測量無意識記憶的工作來量化這種影響。我們故意在訓練數據中插入獨特的、隨機的罕見句子,並評估罕見句子對訓練模型的影響。在這種情況下,單個隨機罕見句子的插入就足夠讓無隱私保護模型完全記住它了。

TensorFlow Privacy庫和示例可以在它們的GitHub存儲庫中找到。此外,TensorFlow技術白皮書已經更新,包含了這些新隱私機制的詳細信息。

閱讀英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章