關於聯邦學習What、How、Who的靈魂三問

最近沉迷於學習政治經濟學無法自拔,聽了很多資本論相關的課程。今天也嘗試通過what how who的方式介紹下聯邦學習,

(感謝這個領域的專家,老同學Dr Liu給我的輸入)

靈魂三問指的是:

1.聯邦學習解決了什麼問題

2.聯邦學習怎麼解決的問題

3.具備什麼樣條件可以實現聯邦學習商業化

聯邦學習解決了什麼問題?

聯邦學習最早是Google在差不多兩年前提出的,當時我還興奮地發了一個文章講聯邦學習。Google定義了聯邦學習的概念,是通過多個終端聯合建模,實現一個完整的強大的模型。

Google提出聯邦學習後呢,這個方向一直不溫不火,因爲彷彿聯邦學習解決的是不同終端間分佈式建模的問題,把聯邦學習看作一種框架性的問題。

 

但是最近,國內一些公司開始逐步實現了聯邦學習的商業化,甚至有類似於FATE這樣的聯邦學習開源框架產生。我個人認爲,聯邦學習之所以能在商業化場景找到突破口,是因爲一些公司成功的重新定義了聯邦學習解決的問題。

今天在機器學習領域,框架性的問題有很多解決方案,但是數據的共享問題一直沒有好的答案。聯邦學習被重新定義爲解決數據共享的一種方案,用來解決數據孤島問題。

image.png

之前在寫《機器學習實踐應用》的時候我做過一個調研,這個世界上92%以上的數據會保留到少數10家互聯網巨頭的數據庫裏。也就是說,普通的企業如果想做模型的訓練,數據樣本不足是一個很大的問題,而且數據交互在業內基本上是禁區。

所以,如果將聯邦學習重新定位爲解決數據孤島問題,在商業化方面的機會點會遠比解決一些技術框架性問題的機會大得多。

聯邦學習如何解決數據孤島問題?

首先大家要知道一個概念,機器學習模型可以簡單理解是一組權重值,在做模型訓練的時候的本質目的是找到這些權重值發展的合理方向,類似於求導。這種方向性可以通過梯度表示,聯邦學習就是利用了梯度的交換實現了不同終端的聯合建模。

屏幕快照 2020-03-14 下午9.58.20 1.png

如上圖講的,公司A和B,雖然不能交換數據共同建模,但是他們可以把各自模型訓練過程中的梯度做交換,因爲梯度在離開數據之後是沒有實際意義的,也不會有監管和法律風險。

所以聯邦學習將模型訓練抽象成了利用多個模型間的模型的共享梯度進行建模,這就將聯邦學習轉換成了遷移學習,遷移學習接下來的技術手段就很成熟了。

於是,聯邦學習的技術難點並不在通過得到的梯度去優化模型,因爲這一部分的技術很成熟。聯邦學習的難點在於如何做到各個公司間的梯度共享,因爲這裏面涉及到許多加密傳輸相關的問題,是信息編碼理論的範疇。編碼有很多方式,最簡單的可能就是哈希一下再傳輸(這部分沒研究過,雖然我本科是通信與信息專業畢業)~

屏幕快照 2020-03-14 下午10.05.42.png

 

總結下,聯邦學習解決問題的技術手段就是在遷移學習的基礎上加上信息編碼技術。這裏面涉及到相當多的細節,就不展開了。

比如我提一個課後題,聯邦學習怎麼做預測?假如某縱向聯邦學習生成了一個10個特徵的模型,是由A和B兩家公司共同建模完成,每個公司貢獻5個特徵。A公司拿到這個模型要怎麼用呢?因爲A只有包含5個特徵的數據樣本啊~嘿嘿,這裏面有很多設計,大家開通腦筋想一想。

具備什麼樣的條件才能實現聯邦學習?

馬克思在《資本論》裏說:“社會主義革命,會首先在生產力發達的國家誕生。”那想做聯邦學習這個生意需要什麼樣的前提條件呢?

首先,聯邦學習按照數據的X和Y問題,分爲橫向聯邦和縱向聯邦。

縱向:

image.png

橫向:

image.png

 

以中國互聯網公司的情況,橫向聯邦是很難有大的市場的。因爲橫向聯邦意味着兩家公司需要數據格式一致,那大概率是在同一領域的相互競爭的兩家公司,合作的概率不大。

商業機會可能在縱向聯邦,需要有一家數據非常全的公司,然後其它小公司跟這家公司撞庫,這個商業模式是可能的。而梯度交換又要求所有使用聯邦學習的公司必須數據在同一雲平臺。

所以,我大膽預測,如果未來幾年有誰能做好公共雲聯邦學習的生意,一定背靠某個國內的大的雲廠商才行。這個論斷純屬YY,畢竟國內還沒有特別成功的關於聯邦學習的範例共參考。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章