【TL學習筆記】2:多任務學習(Multi-task Learning)在圖像分類中的應用

1 MTL簡述

1.1 單任務學習

早期的機器學習方法都是單任務學習(STL)的,即認爲不同任務之間沒有關聯性,所以都是單獨訓練的。這樣因爲每個模型單獨訓練,數據量只有自己的這一部分,訓練出的模型也沒有很好的泛化性。另外因爲模型之間訓練時候沒有關聯,即沒有考慮到這些學習之間可能有共通的地方,最終得到的模型性能也不夠好。

1.2 多任務學習

在多任務學習(MTL)中考慮了不同任務之間的關聯,所以將不同任務的訓練數據都放在一起,來訓練多個任務的模型。

1.3 MTL的構建原則

  • 找到建模任務之間的相關性
  • 同時對多個任務的模型的參數聯合學習,以挖掘共通的信息
  • 考慮任務之間的差異性, 以增強模型適應能力

1.4 MTL的兩種主要方式

  • 基於參數共享,例如:神經網絡隱層結點共享
  • 基於正則化約束的共享,例如:均值約束、聯合特徵學習

2 基於參數共享的MTL

這種方式在綜述裏也叫硬參數共享,它的思路在上一篇學習的DA裏也提到過,就是因爲神經網絡在淺層學習到的是一些比較通用的比較泛的知識,所以淺層都是共享的,但是到了深層每個學習任務要學習自己特定的知識,所以到了深層又不共享了。


這種方法的圖像處理工作有這篇ECCV2014的論文,淺層都是共享的,然後得到了共享特徵,再根據不同任務做不同的輸出層。
在這裏插入圖片描述

3 基於正則化約束的共享的MTL

這種方式在綜述裏也叫軟參數共享,即實際上每個任務還是有自己的參數,但是不同任務之間的參數共享是靠給參數的差異設置約束,主要是在模型的損失中加入正則化先驗項,使得參數差異不會太大。

3.1 均值約束共享MTL

這種就是和前面說的一樣,簡單的認爲不同任務模型的相關性是通過模型參數相接近來達到的。因爲不知道是任務i和任務j接近,還是多任務中的哪些任務之間更接近,所以這裏乾脆就是讓每個任務的模型參數接近所有任務模型參數的均值

3.2 聯合特徵約束MTL

這個方法裏認爲不同任務的模型參數可能會共享樣本的某一個共同的特徵集合,下圖中左側Y是每個任務的輸出,右側的W是每個任務的模型參數,中間是輸入的樣本,然後張圖裏W有一些非空白的地方,表示這些任務的模型參數挑選了其中的一些特徵。
在這裏插入圖片描述
這裏老師舉了一個例子說明爲什麼可以這樣,比如要預測不同來源學校的學生成績,下圖裏右側是五個任務,然後左邊是7個特徵,這些任務共同點都是預測成績,共同影響成績的特徵就是上次成績、上次排名、睡覺時間、父母教育背景。而身高或許會有影響,比如有的學校裏可能身高高的必須坐在後排,但是不是每個學校都有這種情況,所以這個特徵提供的更多的是任務內部的信息。
在這裏插入圖片描述

3.3 髒模型(Dirty Model)MTL

這裏也是考慮到前面3.2中說的有些特徵是對一些特定的任務有用的,所以任務的模型是由共同特徵和自己提取的一些特徵合成的。
在這裏插入圖片描述

3.4 低秩約束MTL

前面的方法都是挖掘模型參數的一些表面特徵,實際上模型的參數不一定是要單純的接近。這種方法裏的不同任務的模型參數表面上不一樣,但是都是由一組基向量組合而成的,只是組合的係數不一樣。
在這裏插入圖片描述
從下面這張圖裏可以看到,這個方法裏m個任務的參數向量是由p個基向量乘以一個係數矩陣得到的,其中p比m小,所以模型參數矩陣(m個任務的參數向量的排列)的秩肯定不會超過p,即具有低秩特性。
在這裏插入圖片描述

4 其它MTL方法

前述的方法中存在兩個主要問題,一是它們都認爲任務之間的相關性僅和模型參數有關,但是實際上還可能和其它因素有關;二是忽略了樣本原始特徵的差異性,如果從樣本中提取的原始特徵本來就不好,那麼這些特徵也許只能體現出不同任務的差異性,而導致無法在這個特徵空間中建立相關性

4.1 交替結構優化MTL

交替結構優化(Alternating Structure Optimization)認爲每個任務的模型參數uiu_i由兩部分組成,其中wiw_i用來在圖像所在的原始空間提取差異性特徵,而θvi\theta v_i用於提取任務之間的共享特徵,這裏乘以一個θ\theta認爲不同任務的樣本共享一個特徵空間,由於在原始空間無法很好的建立不同任務的相關性,所以用它投影到另一個特徵空間上去。

下面是整個的結構,和上面公式表達的意思一樣的,θ\theta是共享的用於投影到公共空間的這樣一個Feature Map。
在這裏插入圖片描述
下圖是這個ASO方法的Loss計算,第二行可以看到原始的ASO除了Loss之外只對提取差異性特徵的wiw_i做了約束(所以加了一項αwi2\alpha ||w_i||^2),而改進後的iASO還對提取共同特徵的θvi\theta v_i做了約束,當這個約束項的係數爲0時候就退化成ASO了。式中θTθ=1\theta^T\theta=1說明總是投影到正交的空間上。

4.2 非相干的低秩稀疏結構MTL

原文是Incoherent Low Rank and Sparse Structure方法。之前的方法中不同任務非共享部分的模型參數還是獨立學習的,這種方法裏就考慮將參數組合在一起學習能不能獲得更好的效果。

圖中QQ是將不同任務的模型參數按列排成的矩陣,相當於4.1中的WW,而PP相當於θV\theta V。這種方法裏選舉一些零星的特徵來挖掘不同任務的差異性,所以不是像4.1中一樣直接乘以係數α\alpha來約束,而是認爲差異性特徵會受到一些零星的特徵的影響(圖中深色部分小塊)。
在這裏插入圖片描述
而在Loss中除了QQ的一範數約束之外還對PP的秩進行了約束,保證低秩的性質:

參考閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章