An Overview of multi-task learning閱讀筆記

本文是香港科技大學的Yu Zhang和 楊強博士發表在Computer science上的一篇關於MTL的綜述文章。

摘要

        多任務學習(MTL),通過提取各任務之間的相關信息可以提高性能表現。本文,作者第一次給出了多任務學習的定義,對多任務學習做一個綜述。文中介紹了幾種不同的MTL,每一組都介紹了相關的典型模型。包含多任務監督學習,多任務非監督學習,多任務半監督學習,多任務主動學習。多任務強化學習,多任務在線學習以及多任務多視角學習。爲了加速學習過程,介紹了並行以及分佈式MTL模型。MTL模型應用在許多領域,比如計算機視覺,生物信息,健康信息,語音,自然語言處理,web應用以及普適計算。最後,本文介紹了MTL最新的研究進展。、

本文大篇幅介紹了MTL監督學習:

1.Introduction

        機器學習往往需要大量的標註數據,但是諸如醫療圖像領域,已有的標註數據很少,所以需要從其他相關任務中探索有用的信息解決數據稀疏問題。

        多任務學習和遷移學習,多標籤學習相關。與遷移學習不同的是,遷移學習是學習一個或者多個任務用於提高目標任務表現,MTL則是多個任務之間互相學習,互相提高。

2.多任務學習的定義

        多任務學習即給定m個學習任務{Ti}i=1,...m,每一任務或者任務的子集都是相關的,但是不完全相同。多任務學習使用m個任務之間的相關信息提高每一個任務Ti的表現。

可以看出該定義包含兩個基本要素:任務相關性和任務的定義。任務的定義包含監督任務,非監督任務等等,不同的任務定義產生了不同的MTL。下面逐一介紹:

3.MTL監督學習(multi-task supervised learning簡稱MTSL

        反映MTSL相關性體現在是三個方面:特徵(feature),參數(parameter)以及實例(instance),所以可以分三類任務:feature-based, parameter-based, instance-based MTSL.

3.1 Feature-based MTSL

        這類任務假設所有的任務共享特徵,基於怎麼呈現這些共享特徵,可以分爲三種方法:特徵轉換方法,特徵選擇方法以及深度學習方法。

(1)特徵轉換方法

        該方法把起始特徵通過線性或者非線性準換,一個代表性的模型爲多層前饋神經網絡。如下圖所示。輸入層爲d個特徵單元,接受m個任務的數據,經過神經網絡非線性映射,輸出m個不同任務的輸出。

https://img-blog.csdnimg.cn/20181219115747948.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbmdfZGF4aWE=,size_16,color_FFFFFF,t_70

        除此之外,還有MTFL和MTSC[5,6]線性映射方法。首先把數據轉化,然後學習以一個線性函數。公式如下:

https://img-blog.csdnimg.cn/20181219191336166.png

https://img-blog.csdnimg.cn/20181219191350422.pnghttps://img-blog.csdnimg.cn/20181219191359260.png

        區別在於MTFL中的U陣爲正交陣,通過L1,L2正則化後矩陣A低稀疏,而MTSC方法U陣列數遠大於行數,通過L1正則以後矩陣A稀疏。

(2)特徵選擇方法

        該方法目的在於從初始特徵中選取一個子集作爲多任務的共享特徵。其中一種有效的方法是Lp,q正則化任務中的線性學習函數的權重矩陣W,https://img-blog.csdnimg.cn/20181219192743775.png ​p,q可以是2,1;∞,1等。這樣可以使W矩陣具有低稀疏性,濾除一些不重要的特徵。

(3)深度學習方法

        該方法類似前文提到的多層前饋神經網絡,但是網絡結構更深,包含CNN,RNN結構。大部分文獻[18-22]都把一個隱層的輸出作爲共享特徵。但是文獻[23]中提出十字神經網絡,將具有相同神經網絡結構的兩個任務中的特徵,通過十字交叉操作生成新的特徵,如下所示。該方法比之前的方法更靈活。

https://img-blog.csdnimg.cn/2018121919434923.png

3.2Parameter-based MTSL

        這類方法通過模型的參數建立多任務之間的相關性。基於建立相關性的方法,可以分爲5類。

(1)low-rank approach

        相似的任務具有相似的模型參數,所以參數矩陣W可能是低秩的。文獻[24]通過矩陣分解

https://img-blog.csdnimg.cn/20181219200541772.png ​將矩陣分解爲:所有任務共享的低秩子空間正交陣https://img-blog.csdnimg.cn/20181219200719570.png ​用於移除矩陣冗餘,ui爲任務i的特殊矩陣。文獻26通過正則化矩陣範數,文獻27通過capped-trace 正則化產生低秩矩陣。

(2)Task-clustering approach

        類似於數據聚類的思想,把任務聚類幾個不同的簇,每一個簇共享模型參數。多任務貝葉斯網絡採取的方法包括高斯混合模型,狄利克雷過程。另一種方法受K-MEANS激發,採用各種正則化的方式,如MTFL等。

(3)Task-relation learning approach

        之前的研究使用模型假設或者給定先驗信息表徵任務相關性。現在主要通過數據學習任務之間的相關性。文獻42提出多任務高斯過程,通過高斯分佈中的協方差矩陣刻畫任務相關性。在此基礎上演變了多任務關係學習(MTRL)、多任務boosting和多label學習,K最鄰近分類等方法。

(4)Dirty approach

該方法將參數矩陣W分解爲U和V,(W = U+V)兩者分別刻畫不同的任務相關性。U通過低秩化刻畫任務之間的相關性,V通過係數化刻畫任務之間的噪聲。目標函數爲:在所有的任務以及正則化U和V基礎上最小化訓練損失。學者提出了5中正則化U和V的方法,如下表所示:這些方法爲了使矩陣U低秩或者低稀疏,矩陣V稀疏或者列稀疏。

https://img-blog.csdnimg.cn/2018121920511772.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbmdfZGF4aWE=,size_16,color_FFFFFF,t_70

(5)Multi-level approach

        該方法是方法4的推廣,將W分解爲h個(W=W1+W2+...+Wh)。該方法不僅僅只關注噪聲信息,可以刻畫更復雜的任務結構,如樹形結構,簇任務結構。

3.3Instance-based MTSL

        這一類學習的研究很少。文獻61首先估計每一個任務中的數據實例佔所有任務的權重,然後通過softmax函數確定數據實例的實際權重。最後通過具有權重的數據實例進行多任務學習。

3.4本節總結

        feature-based更適用於任務起始特徵不是很明確,區別不大的場所,如計算機視覺,自然語言處理,語音方面。但是其泛化能力不好。parameter-based可以學習更具體的參數,相對來說魯棒性更好。兩者可以互相促進。在MTL中MTSL佔了90%,應用的更廣泛。

4.MTL無監督學習(multi-task unsupervised learning

        無監督學習數據沒有label,多任務無監督學習主要關注多任務聚類,把不同數據分成幾個不同的數據簇,提取有用信息。此方面的研究也很少,主要有兩個方法。MTFL和MTRL,前文已經提高,區別就是沒有label。

5.MULTI-TASK SEMI-SUPERVISED LEARNING

        訓練集中既有帶有標籤的數據,也有無標籤的數據。通過學習探索無標籤數據中的有效信息。可以分爲兩類:多任務半監督分類和多任務半監督迴歸。對於前者,文獻63,64使用狄利克雷過程進行任務聚類;對於後者,文獻65在使用高斯過程,用無標籤數據定義核函數。

6.MULTI-TASK ACTIVE LEARNING

        數據中大部分都是無標籤數據,所以要採取不同的方法選擇有用的無標籤數據。如潛在狄利克雷分佈等。

7.MULTI-TASK REINFORCEMENT LEARNING

        增強學習通過環境學習採用行動,最大化累積回報。通過馬爾科夫決策過程建立增強學習模型。

8.MULTI-TASK ONLINE LEARNING

        訓練數據爲連續不斷產生時可以採用在線學習。文獻76在在線學習算法中對任務中的行動施加約束。文獻78提出貝葉斯下在線學習算法,使用高斯過程共享核參數。文獻79使用MTRL在線學習算法共享模型參數以及協方差。

9.MULTI-TASK MULTI-VIEW LEARNING

        在計算機視覺中,一個數據點可以用不同的特徵描述,稱之爲多視角學習。文獻80提出第一個多任務多視角分類器,分類器共享每一個任務中的多視角。文獻81通過每一個任務中的無標籤數據中的多視角表徵多任務之間的相關性。

10PARALLEL AND DISTRIBUTED MTL

        如果任務過多的,需要使用多個GPU並行計算,文獻82提出了一種並行計算算法解決MTRL中的子問題。如果不同任務的訓練數據在不同的機器上時,需要使用分佈式計算。文獻83提出一種分佈式計算方法,提高了計算的效率。

11THEORETICAL ANALYSIS

        MTL的理論分析集中在探討其泛化模型的派生邊界。文獻133第一次推導出MTL模型派生邊界,研究人員隨後在特徵轉換方法,特徵選擇方法,低秩方法,任務相關性學習方法,噪聲方法等方面探究了模型派生的邊界。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章