產業安全專家談丨企業如何應用“聯邦學習”打破數據孤島,助力業務創新?

​​隨着雲計算和大數據技術的不斷髮展,以人工智能爲基礎的數據分析與數據挖掘讓大數據釋放出巨大價值,已成爲企業業務創新、業績增長的重要手段。

然而,企業在現實中的數據利用卻困難重重,在數據價值開發中,企業究竟面臨哪些痛點?企業如何打破困局,充分發揮大數據的潛在價值,助力業務創新?由騰訊安全聯合雲+社區打造的「產業安全專家談」第十七期邀請到騰訊安全大數據創新中心負責人羅鬆爲大家解析企業數據應用的現實路徑。

Q1:產業互聯網時代,數據在業務發展中越來越重要,企業在數據應用中有哪些痛點?

羅鬆:企業數據應用最大的痛點是數據共享需求與數據隱私之間的矛盾。

隨着科技的發展、業務的創新,很多企業產生了大量數據。但在企業之間,甚至企業內部,數據之間常常彼此割裂,存在明顯的“數據孤島”的現象。不論對大企業還是小企業,爲了提升業務質量,提高基於數據的決策能力,從而取得競爭性優勢,就對在內外部進行數據融合產生了較大的需求。但是一個現實的問題是,整個社會對隱私保護越來越關注,監管對使用數據的要求也越來越嚴格。在這種情況下,企業急需有一套比較好的技術和方案,在隱私保護和數據合規的情況下進行內外部的大數據合作,這也是我們推出聯邦學習應用服務的初衷。

Q2:聯邦學習是如何解決企業數據應用困局的?

羅鬆:傳統的聯合建模需要把數據集中到一起,“可見纔可用”,難以滿足數據隱私和合規要求。聯邦學習通過數據加密、分佈式機器學習等前沿技術的綜合運用,讓數據在不出私有域的情況下進行聯合建模,數據融合過程中只交換機器學習的中間值,實現了數據和特徵變量的“可用不可見”,有效解決了數據運用與隱私保護、數據合規之間的矛盾。

Q3:聯邦學習爲什麼要聯合專業團隊?企業自己做的難點在哪裏?

羅鬆:聯邦學習的本質是在不同數據生產方之間進行了數據融合以及聯合建模(數據不出各自的數據中心,但是可以實現融合建模的效果)。單憑一方是無法進行聯邦學習的,因爲沒有其他的數據來融合。同時聯邦學習的技術要求較高,需要長期且較大的成本研發投入。選擇具有技術和數據實力的專業團隊,能夠更便捷高效地接入聯邦學習,降低成本。

Q4:在具體項目中,企業和騰訊安全是如何合作的?共享了哪些數據特徵?

羅鬆:聯邦學習建模最大的特點是數據可用不可見,實際上雙方交換的是機器學習的中間值。

目前,在金融領域,騰訊安全已與江蘇銀行達成了首個合作。騰訊安全具有大量的信息流維度數據,基於豐富的黑灰產庫沉澱了3000多個定義風險種類的特徵變量,並構建了相應的特徵工程,基於資金流相關緯度的數據也沉澱了相應的特徵變量和特徵工程,雙方通過聯合建模對這些特徵變量進行融合,只是交換了機器學習的中間值,也就是誤差和梯度,達到了數據可用不可見的效果。

通過聯合建模,江蘇銀行實現了信用卡智能化管理,在信用卡接入規模化、盈利規模化方面取得重大突破。

Q5:當前聯邦學習有多個不同架構和產品,不同機構的聯邦學習架構是否存在技術標準差異,存在不兼容的情況?

羅鬆:“聯邦學習”的概念最早於2016年由谷歌研究科學家H.Brendan McMahan等提出,隨後,谷歌、英偉達等國外科技公司相繼推出有關聯邦學習的算法框架、併發布相關應用產品,如英偉達基於聯邦學習開發的Clara平臺就在醫療領域發揮出巨大價值。

騰訊是國內較早研發聯邦學習技術的企業,由騰訊安全研發的聯邦學習應用服務可以兼容微衆銀行聯邦學習FATE架構和騰訊PowerFL技術架構,專注於上層的應用服務,實現業務智能化管理。騰訊安全聯邦學習應用服務已經申請多項專利,擁有豐富的工程化工具集,解決方案處於行業領先水平。

Q6:企業在聯邦學習的應用中怎麼實現個性化的部署?

羅鬆:騰訊安全的聯邦學習應用雖然採用了標準化雲交付,但實質上提供的是個性化應用服務。在我們標準的技術建議書中,標準化部署後,聯邦學習對客戶的特定樣本進行聯合建模中,並自動選擇對建模效果有顯著提升的特徵變量作爲入模變量。因此,對每一個客戶的具體業務,聯邦學習提供的都是個性化的模型和服務。目前騰訊安全聯邦學習應用服務還在持續優化中,當前一個200多個特徵變量、十萬數據量的模型訓練需要大約5小時內完成,未來這個時間將進一步縮短,這也是我們下一步重點研發的方向之一。

Q7:當前,大數據在市場中的運用越來越多,在您看來,聯邦學習的前景如何?未來能否在更廣泛的領域得到應用?

羅鬆: 聯邦學習的應用前景非常廣闊,只要有數據融合的需求,只要在融合的前提下需要進行隱私保護,聯邦學習都會找到非常適合的應用前景。
​​​​

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章