一、遷移學習基本概念
1、遷移學習概念:遷移學習,是指利用數據、任務、或模型之間的相似性,將在舊領域學習過的模型,應用於新領域的一種學習過程。
2、爲什麼需要遷移學習及遷移學習的解決方法
-
大數據與少標註之間的矛盾:在大數據時代每天都產生海量的圖像、文本、語言等各類數據,但這些數據往往都是很初級的原始形態,很少有正確的人工標註。
*遷移數據標註:*尋找一些與目標數據相近的有標註的數據,從而利用這些數據來構建模型,增加我們的目標數據的標註。 -
大數據與弱計算之間的矛盾:大數據需要大設備、強計算能力的設備進行存儲和計算,絕大多數普通用戶不可能有這些強計算能力。
模型遷移: 將在大數據上訓練好的模型遷移到我們的任務上,再根據我們的任務進一步微調。 -
普適化模型與個性化需求之間的矛盾: 機器學習的目標是構建一個儘可能通用的模型,儘量提高模型的泛化能力,但是人們的個性化需求五花八門。
*自適應學習:*考慮到不同用戶之間的相似性和差異性,我們對普適化模型進行靈活調整。 -
特定應用的需求:現實生活中存在一些特定的應用,它們面臨着一些顯示存在的問題,比如推薦系統的冷啓動問題,一個新的推薦系統,沒有足夠的用戶數據,如何進行精準的推薦。
相似領域知識遷移: 從數據和模型方法上進行遷移學習
3、與已有概念的區別和聯繫 -
傳統機器學習
-
多任務學習
多任務:多個任務協同學習 -
終身學習:可認爲是序列化的多任務學習,面對新的任務,不遺忘之前學習的任務而繼續學習
-
領域自適應:是遷移學習的研究內容之一,側重於解決特徵空間一致沒類別空間一致,僅特徵分佈不一致的問題。
-
增量學習:數據不斷到來,模型不斷更新
-
自我學習:模型不斷地從自身處進行更新,遷移學習強調知識在不同領域間進行遷移
-
協方差漂移:數據的邊緣概率分佈發生改變
4、負遷移
(1)負遷移指的是,在源域上學習到的知識,對於目標域上的學習產生負面作用
(2)負遷移產生的原因: -
數據問題:源域和目標域壓根不相似
-
方法問題:源域和目標域是相似的
(3)克服負遷移的最新研究成果
==2015年楊強教授團隊的 == 傳遞遷移學習 Transitive transfer learning
2017年楊強教授團隊的 遠領域遷移學習 Distant domain transfer learning
二、遷移學習研究領域
1、遷移學習常用分類方法
1.1 按照目標域標籤分
目標域有無標籤
監督遷移學習/半監督遷移學習/無監督遷移學習
1.2按學習方法分類
-
基於樣本的遷移學習
直接對不同的樣本賦予不同權重,比如說相似的樣本,我就給它高權重 -
基於特徵的遷移學習
假設源域和目標域的特徵
原來不在一個空間,或者說它們在原來那個空間上不相似,那我們就想辦法把它們變換到一個空間裏面 -
基於關係的遷移學習
挖掘和利用關係進行類比遷移 -
基於模型的遷移學習
構建參數共享的模型
目前最熱的就是基於特徵還有模型的遷移,然後基於實例的遷移方法和他們結合起來使用。
1.3按照特徵分類 -
同構遷移學習
-
異構遷移學習
特徵語意和維度
1.4按離線與在線形式分 -
離線遷移學習
-
在線遷移學習
是否能夠對新加入的數據進行學習,改進模型
三、遷移學習的應用
1、計算機視覺
2、文本分類
3、時間序列
4、醫療健康
四、基礎知識
1、遷移學習的問題形式化
在遷移學習中的兩個基本概念:領域(Domain),任務(Task)
定義如下:
2、總體思路
(1)遷移學習的總體思路可以概括爲:開發算法來最大限度地利用有標註的領域的知識,來輔助目標領域的知識獲取和學習
找到相似性 (不變量),是進行遷移學習的核心。
相似性是核心,度量準則是重要手段。
3、度量準則
度量就
是描述源域和目標域這兩個領域的距離:
(1)常見的幾種距離
-
歐氏距離
-
閔可夫斯基距離:兩個向量(點)
-
馬氏距離
(2)相似度 -
餘弦相似度:衡量兩個向量的相關性
-
互信息:定義在兩個概率分佈上
-
皮爾遜相關係數:衡量兩個隨機變量的相關性
-
Jaccard相關係數:判斷兩個集合的相關性
(3)KL散度與JS距離
KL散度和JS距離是遷移學習中被廣泛應用的度量手段 -
LS散度:相對熵,衡量兩個概率分佈的距離,這是一個非對稱距離
-
JS距離:基於KL散度發展而來,是對稱度量
(4)最大均值差異MMD
最大均值差異是遷移學習中使用頻率最高的度量。 Maximum mean discrepancy,它度量在再生希爾伯特空間中兩個分佈的距離,是一種核學習方法。兩個隨機變量的 MMD 平方距離爲:
(5)Principal Angle
將兩個分佈映射到高維空間(格拉斯曼流形)中,在流形中兩堆數據就可以看成兩個點。
(6)A-distance
是一個很簡單卻很有用的度量,此距離可以用於估計不同分佈之間的差異性。A-distance被定義爲建立一個線性分類器來區分兩個數據領域的hinge損失。
(7)Hilbert-Schmidt Independence Criterion
希爾伯特-施密特獨立性係數,用來檢驗兩組數據的獨立性。
(8)Wasserstein Distance
用來衡量兩個概率分部之間距離的度量方法