【AI技術生態論】平安科技王健宗:所有 AI 前沿技術,都可以在聯邦學習中大展身手!

在這裏插入圖片描述

受訪者 | 王健宗,平安科技副總工程師、聯邦學習技術部總經理
記者 | 夕顏
出品 | CSDN(ID:CSDNnews)

「AI技術生態論」是CSDN發起的“百萬人學AI”倡議下的重要組成部分,與AIProCon萬人開發者大會Top30 AI技術生態行業案例徵集和評選開發者與AI大調查AI大師課一起,打造一個覆蓋百萬開發者的AI生態聯盟。


2020年,「AI技術生態論」欄目將對1000+AI生態大咖進行系列訪談,勾勒出AI生態最具影響力人物圖譜和AI產業全景圖!


本文爲 「AI 技術生態論」系列訪談第二十七期,CSDN 邀請到平安科技副總工程師、聯邦學習技術部總經理王健宗,來詳細講解關於聯邦學習,我們必須要了解的事實。


百萬人學 AI 你也有份!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼“AIP211”,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得!

今天,我們來聊聊聯邦學習(Federated Learning)。人工智能和大數據領域的人對於這個新興詞彙一定不陌生,但關於這個連名字都有多種叫法的技術(聯邦學習、聯合學習、聯盟學習…)究竟是如何實現的,很多人只是一知半解。


風頭正盛的聯邦學習究竟是什麼?


簡單來說,聯邦學習作爲分佈式的機器學習範式,最大的特點是可以讓多個參與方進行 AI 協同。本質上來說,聯邦學習的目標是爲了有效解決**“數據孤島”** 問題,讓參與方在不共享數據的基礎上聯合建模,從技術上打破數據孤島,實現 AI 協作

加粗樣式

自從谷歌在 2016 年提出了針對手機終端的聯邦學習,這個概念開始火爆起來,並被視爲下一代人工智能協同算法和協作網絡的基礎。平安科技提出“聯邦智能”的架構,將安全通信、層級加密、可信計算、可視化等真正實現保護用戶隱私數據的完整系統囊括進來,聯邦學習只是其中一個技術環節。

雖然聯邦學習技術更新迭代,也有了不少實踐解決方案,但是在實際落地中,在保護數據隱私的前提下進行 AI 協同,無論是底層技術還是整個部署環節,還有大量的挑戰需要克服。

爲了更加深入瞭解聯邦學習,CSDN 邀請到平安科技副總工程師、聯邦學習技術部總經理王健宗,從他個人踏上聯邦學習技術和應用研究之路的個人經歷開始,到在其帶領下構建的自動化機器學習平臺“奧卡姆”與聯邦智能平臺“蜂巢”的技術解析與應用實踐,一窺這項技術在信息爆炸的新時代下,到底已經走到了哪一步。


從雲 AI 轉向聯邦學習,出於對技術的發展趨勢預判


王健宗就讀於華中科技大學計算機學院計算機系統結構專業,是個典型的拿公派獎學金的“別人家孩子”。2009 年,王健宗被國家公派到美國萊斯大學聯合培養博士,當時正值雲計算興起,他參與了萊斯大學與亞馬遜公司的雲計算服務優化的合作項目,並在讀博期間提出了“雲 AI”的技術方向,完成了關於雲服務質量方向的博士論文。

聯合培養博士完成後,王健宗當時收到了一些美國的公司和學校的 Offer,但是考慮到國內廣闊的應用場景、海量的數據,王健宗毅然決然回國,並加盟了網易公司,從零開始參與搭建網易大數據平臺。在從事若干年大數據研發後,王健宗開始思考一個問題——這些數據如何與應用場景相結合?他順其自然想到了若干年前在美國所提出的“雲 AI”方向,從技術路徑上講,雲計算、大數據之後,必然走向人工智能。帶着對 AI 的前景預判,王健宗再次前往美國,在美國佛羅里達大學,師從人工智能國際知名學者李曉林教授,從事人工智能博士後研究工作。

在雲計算和人工智能領域深耕數年,王健宗把主要的精力用在分佈式人工智能領域,聯邦學習算是多年來他一直在做和想做的事。從美國完成博士後項目之後,他回國加入平安科技,專注於金融人工智能和聯邦智能領域的研發工作,帶領團隊自研了自動化機器學習平臺“奧卡姆”,以及聯邦智能平臺“蜂巢”。


揭祕聯邦學習平臺“蜂巢”


AutoML 是機器學習至關重要且有潛力的技術,尤其是與聯邦學習的結合更是有着無限廣闊的前景。但是今天,我們將重點在聯邦學習上。

王健宗說到,聯邦學習想要解決的問題十分明確——就是數據孤島 ,這也是它目前主要的落地場景。

“蜂巢”的技術架構

在這裏插入圖片描述

他介紹到,蜂巢平臺的技術框架,是支持聯邦智能原生的。在數據部落中,“蜂巢”包含幾大功能模塊,包括數據預處理、數據特徵化、數據質量的評估等。該平臺支持傳統的統計機器學習和深度學習的模型,如邏輯迴歸、線性迴歸、樹模型、CNN/RNN等。在整個模型訓練過程中,對梯度進行非對稱加密,整合梯度和參數優化、更新模型。

在聯邦推理這一過程中,“蜂巢”會把原始的傳輸的數據進行加密,最終實現推理結果。

在技術研發工程中,他們不僅需要研發有效的分佈式機器學習算法,更重要的是如何更好地保障用戶數據安全,在此基礎上需要開發可靠的加密方法和有效的聯邦學習模式。因此,根據在實際應用場景中用戶的反饋,例如一些聯邦學習算法中涉及大量矩陣大數運算,其通過不斷嘗試和實驗優化矩陣大數運算算子,在密態下矩陣大數運算的效率上有了很大的提升。

這不禁讓人好奇,在平安科技內部,“蜂巢”的背後是怎樣一支團隊呢?

從王健宗的口中 CSDN 得知,這支團隊是由平安集團首席科學家肖京博士指導,由他本人帶領的業內聯邦學習專屬團隊,主要的目標是推動 AutoML、聯邦學習、AI翻譯以及深度圖領域的生態發展,探索行業應用與前沿 AI 技術進行深度、自動化融合的方式,近期在多項AI比賽榜單名列第一的自動化機器學習平臺“奧卡姆”就也出自這支團隊之手。

“蜂巢”作爲平安科技的主要聯邦學習平臺,在底層技術和設計上有何獨特之處?

王健宗介紹,如何打造和實現企業級的聯邦智能平臺是平安科技的目標,因此,“蜂巢”從最初的架構設計上就考慮到了在平安集團內各個專業子公司之間就存在着很多數據壁壘,金融行業對數據隱私的保護和監管要求是非常嚴格,企業級的聯邦智能平臺就一定要滿足穩定、安全、合規的要求。

爲說明這一點,王健宗舉了一個例子。“國內金融機構中很常用的加密方式是國密算法,很多的公司對於任何信息的傳輸和加密都要求採用國密算法,這與我們在業界常見差分隱私和同態加密都不相同,而蜂巢平臺能充分支持了國密SM2、國密SM4、混淆電路、差分隱私和同態加密等不同的加密方式,以滿足實際企業業務場景的不同需求。”

另外, 蜂巢平臺採用了完全自主研發的梯度處理方法,可以做到真正適用於企業之間不同的應用場景,通過更加高效、更加健全和更加穩定更新機制,從而保障參與各方能夠實現最高效的建模流程。

在聯邦學習技術研發迭代期間,王健宗和團隊總結出了構建聯邦學習平臺的幾個要點,在這裏分享給大家參考:

1)如何根據不同業務場景改造聯邦學習算法?

改造聯邦學習算法的關鍵技術之一就是對各方本地計算得到的參數進行聯邦聚合,針對不同的業務場景需要選擇不同的聚合方法:例如在數據樣本量較大、對性能要求較高的情況下,平安科技提供了 FedAvg 方法,能夠在保證性能的前提下極大程度地滿足業務基本需求;針對小樣本的聯邦學習,自研了 FedSmart 算子,能夠更好地優化參數,提升模型效果。除此之外,還根據其他業務場景定製化研發了一些聚合算子。

2)如何靈活地實現加密功能?

保障數據安全是聯邦學習技術的核心,針對不同的性能要求,平安聯邦學習平臺提供了不同等級的加密模式:對於加密要求嚴格的業務方,提供了國密加密的加密模式,除此之外,還支持信道加密模式等,以適應更多的業務場景。

3)如何提升聯邦建模的效率?

聯邦學習技術的落地需要考慮耗時效率問題,多方計算、加密傳輸等方面都會增加整體的耗時。針對該問題,平安聯邦智能平臺設計了大量矩陣大數運算算子用於實現各計算模塊,對加密算子和數據結構也進行了優化,同時使用了團隊自主研發的新網絡編碼技術,使其能夠更好地支持大批量數據的運算,在不影響模型效果的前提下儘可能地提高建模效率。

“蜂巢”支持哪些算法和訓練模型?

在這裏插入圖片描述
圖源:視覺中國

“蜂巢”支持機器學習、深度學習等多種算法,結合平安自研底層硬件加速技術解決方案,對比競品速度提升50%,具體到算法和 AI 模型訓練,以及自研底層硬件技術解決方案,平安是如何做到的?

據王健宗介紹,首先,在蜂巢聯邦學習平臺的底層的算法設計上分爲四個不同領域和方向。

第一部分是基礎的聯邦學習算法,包括常見的邏輯迴歸、各類樹模型和Boosting算法,以及CNN、RNN等深度學習網絡,支持TensorFlow和PyTorch等各種主流框架等,充分兼容不同的建模場景,這些是蜂巢聯邦學習平臺的核心基礎。

第二個部分是算子層的深度支持和設計,比如,從底層設計上支持圖計算算子,基於Gather-Apply-Scatter的結構抽象高層次算法支撐庫,實現高效的信息收集、運算和全局更新的處理,使得蜂巢平臺的聯邦圖計算算法有非常好的時效性表現。

第三個部分是異構計算,目前聯邦學習算法的性能受限於加密和通信,效率表現往往不夠好,對此蜂巢平臺用GPU等異構計算芯片來加速聯邦學習的加密和通信過程,再加上結合前面提到的算子層優化,從而達到了提速50%的效果,這也是蜂巢在深入實際應用場景中,解決企業間聯邦學習建模的痛點之一。

最後一個部分是安全加密的部分,舉個例子,在實際的建模和推理過程中,重要的模型參數、每個用戶本地的數據等關鍵信息都是存放在安全容器中的,每一次訪問都需要經過安全審計和加密,從而可以達到很好的隱私和安全保護效果。


聯邦學習能與機器學習算法結合,還有哪些新可能?


聯邦學習與機器學習兩者的結合是近年來的研究熱點。對此,王健宗介紹,聯邦學習除了可以和經典機器學習算法結合應用在分類、預測等場景,在一些細分領域也有很好的應用場景。

比如,在推薦系統中可以與協同過濾技術相結合,多方基於矩陣分解(Matrix Factorization)技術進行聯合推薦;在醫療健康領域,多方可以通過深度學習模型例如U-Net、ResNet等進行醫學成像模型的聯合訓練以提高模型準確度;在機器翻譯領域,多方在訓練語料對不出本地的前提下進行聯合建模,最大化翻譯模型的準確性;在OCR領域,聯邦學習同樣可以通過共享模型參數,充分利用他方的訓練樣本信息來彌補己方在一樣識別場景中數據匱乏的不足,提高字符識別準確度。

此外,王健宗也提到也可以積極探索聯邦學習與 AutoML、GNN 等領域的技術結合與應用。 蜂巢聯邦學習平臺在進行聯邦學習建模的過程中支持多種不同的自動化調參方式,可以更加高效地找到最佳的模型參數以達到更好的效果。對於圖神經網絡技術,聯邦學習也同樣可以通過結合圖結構數據的特徵,增加對圖卷積等算子的支持和優化,從而實現更加豐富應用場景。

正如他所說,聯邦智能之於聯邦學習,就像是人工智能之於深度學習,所有人工智能的前沿技術,都可以在聯邦智能的研究和發展中大展身手。 從原始數據的傳輸上來說,聯邦學習減少了原始數據傳輸至中心服務器的通信開銷,但是由於大量的模型訓練交互,增加了交互通信成本。加密是必不可少的一環,但加密本身往往會影響聯邦學習的效率。在實際的工程中,需要針對不同的應用場景,找到“高效”與“可用”之間的平衡。

在這裏插入圖片描述
圖源:視覺中國

同時,聯邦學習也有許多 IoT 應用場景,“現在進入 5G 時代,我們可以積極思考 5G 能夠給聯邦學習的通信帶來什麼便利之處,使聯邦學習的能力可以賦能普惠 AI。未來,聯邦學習與量子通信的結合也是我們很看好的一個方向,相信可以給聯邦學習帶來質的提升。基於傳統的網絡編碼的思路,我們可以在聯邦學習多方通信的過程中通過引入中間節點,分別用於接收和轉發經過線性或函數加密的參數信息,通過網絡編碼通信框架實現在每一個信道上傳輸的參數都不可讀,而在接收端有效解碼的效果,”王健宗說道。


聯邦學習底層技術是否成熟?


當前,聯邦學習底層技術是否成熟?目前存在哪些短板?相信這些問題是大家關心且有望找出突破口的地方。

王健宗認爲,目前聯邦學習底層技術相對來說日漸成熟,目前的短板則是在於計算算力以及帶有加密的通信方面,雖然英特爾 SGX,ARM 的 TrustZone 可以支持部分聯邦學習的場景,但目前還沒有聯邦學習專用芯片,聯邦學習也沒有統一的業內標準和相關協議。


產業落地難點在哪?


當前,平安科技的聯邦智能平臺定位是服務於營銷、獲客、定價、風控、智慧城市和智慧醫療,“蜂巢”能夠提供智慧金融、智慧城市、智慧醫療商用級的一站式解決方案,並研發了具備聯邦智能能力的聯邦機器人,以機器人爲服務終端進行數據採集與聯合建模,完成金融領域下的客戶識別與定製化服務。

我們都知道,本質上來說,聯邦學習的目標就是解決“數據孤島”問題,以及在保障數據隱私和安全的前提下實現人工智能。但不得不提的是,在實際落地中,這仍然是一大挑戰,舉一個很簡單的例子,在聯邦學習中,在不共享數據的前提下協同建模,有一個經常被大家利用的方法就是梯度共享,但不幸的是,梯度共享的方法在有限條件下可以被成功攻破。這些試圖保護數據隱私的學習模型被攻破,未來還會有效嗎?這次事件暴露出的聯邦學習的隱私安全性問題該怎麼保障讓人心生疑慮,也爲未來技術提出來更高的要求。

對此,王健宗解釋到,以平安科技爲例,在做聯邦學習時,他們對隱私安全性有不同層級的設定。僅依賴於梯度共享只能解決聯邦學習科研層面的問題。在實際的工程中,平安科技做了很多工作保護梯度共享機制下的聯邦學習建模,比如,在傳輸和計算運用了同態加密的梯度,不僅要保證底層數據的安全性和隱私性,同時對梯度信息也要進行保護。

雖然有應對的方法,但涉及到數據隱私,類似問題的存在仍不能掉以輕心。


未來趨勢


對於聯邦學習的未來發展,王健宗還有哪些觀點與思考?

他認爲,聯邦學習的關注度很高,這說明市場對聯邦學習的需求是非常旺盛的。在金融領域、智慧城市、智能家居、車聯網等拓展領域上都能看到一些公司在佈局聯邦智能。他希望,大家無論是在訓練、推理,還是數據部落的構建、使用方面都能有聯邦智能的理念和意識。

平安科技未來的發展方向是打造完整的聯邦智能生態,在聯合建模的基礎上,完善算法選擇的多樣化,讓用戶自己定義聯邦學習的語言與參數指標,利用平臺配套算子打造建立用戶自己的定製化模型。希望未來不僅在聯邦學習的應用上做到全面佈局,在聯邦學習的可擴展性上也可以進一步發展。

另外一點,制定統一的聯邦學習標準也是推動這項技術向前發展的重要環節,雖然目前還沒有統一的標準出來,但相關工作已經在推進之中,包括平安科技在聯合多家企業和機構編寫和發佈《聯邦學習白皮書 v2.0》,就是一次不小的進步。

“因爲這是一個重要的新技術方向,平安會努力一直在這個方向佔據領先地位,力爭做行業標杆。因爲平安天然具備豐富的業務場景,所以我們對標準化工作的貢獻不僅是理論層面、工程層面,更是注入了我們長時間以來對業務場景、對 AI 應用落地的理解和經驗。我希望大家能夠共同打造聯邦學習的生態,讓各行各業能充分發揮其價值,使更多的垂直行業能夠落地。”王健宗對於聯邦學習的未來充滿信心。

在這裏插入圖片描述

今日福利!

遇見大咖

同樣作爲“百萬人學 AI”的重要組成部分,2020 AIProCon 開發者萬人大會將於 7 月 3 日至 4 日通過線上直播形式,讓開發者們一站式學習瞭解當下 AI 的前沿技術研究、核心技術與應用以及企業案例的實踐經驗,同時還可以在線參加精彩多樣的開發者沙龍與編程項目。參與前瞻系列活動、在線直播互動,不僅可以與上萬名開發者們一起交流,還有機會贏取直播專屬好禮,與技術大咖連麥。

門票限量大放送!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼AIP211,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得! 快來動動手指,免費獲取入會資格吧!

點擊閱讀原文,直達大會官網。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章