論文筆記《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》

論文鏈接 MMoE

1、摘要

基於神經網絡的多任務學習已經在實際場景如推薦系統中有了大規模應用,例如在電影推薦中,除了要給用戶推薦他們可能購買或者觀看的電影,還要考慮用戶後續對這部電影的評價。通過多任務學習,我們的目標是利用一個模型來學習多個實際業務中的目標,但是,常用的多任務模型的預測質量通常對任務之間的關係很敏感。因此,研究特定於任務的目標與任務間關係之間的建模權衡非常重要。
google推薦團隊提出了一種新的多任務學習方法,Multi-gate Mixture-of-Experts (MMoE),明確地通過數據學習任務模型關係。通過在所有任務之間共享專家子模型,使專家混合(MoE)結構適合多任務學習,同時還擁有經過門控網絡訓練的結構來優化每個任務。爲了驗證該方法在不同相關度任務數據集上的性能,首先應用到了人爲控制任務相關度的數據集,通過實驗也表面,任務相關度越小,該方法比當前的baseline表現更好,我們還表明,MMoE結構會帶來額外的可訓練性好處,具體取決於訓練數據和模型初始化中不同程度的隨機性。 此外,我們展示了MMoE在包括二進制分類基準和Google大型內容推薦系統在內的實際任務上的性能改進。

2、模型介紹

在這裏插入圖片描述

MMoE結構靈感來自於MoE,MMoE顯式地建模任務關係,並學習特定於任務的功能以利用共享表徵。 它允許自動分配參數以捕獲共享任務信息或特定於任務的信息,而無需爲每個任務添加許多新參數。MMoE的骨架結構還是參考了圖1(a) shared-bottom模型的多任務DNN結構,對於底層的shared-bottom,上層兩個學習任務是共享的,本文的模型結構如圖1(c )所示,底部有多個網絡塊組成,每個網絡塊稱爲一個專家,兩個門控制網絡通過輸入原始特徵,輸出一個softmax後的權重向量,分別對應每個專家,對於不同的任務讓每個專家發揮不一樣的作用。

2.1 Shared-Bottom Multi-task Model

給定 k 個任務,這個模型由 shared-bottom網絡,由函數 ff 表示,以及 kk 個任務塔網絡 hkh^{k} 組成,對於任務 kk,模型可以表示爲:yk=hk(f(x))y_k=h^{k}(f(x))

2.2 Original Mixture-of-Experts (MoE) Model

原始的混合專家模型可以表示爲 y=i=1ngi(x)fi(x)y=\sum_{i=1}^{n}g_{i}(x)f_{i}(x)
其中 gg 是控制門網絡,g(x)=softmax(WTx+b)g(x) = softmax(W^T*x+b),輸入原始特徵,輸出是每個專家的權重,並且i=1ngi(x)=1\sum_{i=1}^{n}g_i(x)=1fif_i 是 n 個專家神經網絡,通過門控網絡 gg 來集成各個專家的結果。更具體地說,門控網絡g根據輸入產生n位專家的分佈,最終輸出是所有專家的輸出的加權和。

有文章中將MoE作爲一個單元,類似lstm中的cell,用上一個單元的輸出作爲下一個單元的輸入。

2.3 Multi-gate Mixture-of-Experts Model

文章提出了一種新的MoE模型,該模型旨在捕獲任務差異,而與共享底部多任務模型相比,不需要明顯更多的模型參數。新的模型叫Multi-gate Mixture-of-Experts(MMoE)模型,核心的想法是用MoE層去替換 Shared-Bottom網絡,並且額外針對每個任務 kk,添加了一個新的門空網絡 gkg^k,更準確的,任務 kk 的輸出爲:yk=hk(fk(x))y_{k}=h^{k}(f^{k}(x)) 其中fk=i=1ngikfi(x)f^{k}=\sum_{i=1}^{n}g_{i}^{k}f_{i}(x)我們的實現包括具有ReLU激活的相同多層感知器。 門控網絡只是帶有softmax層的輸入的線性變換 gk(x)=softmax(Wgkx)g^{k}(x)=softmax(W_{g^k}x)每一個門控網絡以輸入樣本爲條件來學習選擇一部分專家子集。對於多任務學習情況下的靈活參數共享,這是理想的。作爲特例,如果僅選擇一個具有最高門得分的專家,則每個門控網絡實際上會將輸入空間線性地分爲n個區域,每個區域對應一個專家。MMoE可以通過確定不同門之間的分隔如何相互重疊這種複雜的方式來對任務關係進行建模。如果任務的相關性較低,則共享專家將受到懲罰,而這些任務的門控網絡將學會使用不同的專家來代替。相比於 shared-bottom model,MMoE僅僅是多了一些額外的門控網絡,增加的門控網絡參數基本可以忽略。

3、實驗效果

在公開數據集上的表現,可以看到mmoe整體上均優於其他base model
在這裏插入圖片描述

參考文獻:
1、https://zhuanlan.zhihu.com/p/55752344

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章