閱讀《遷移學習簡明手冊》總結(一)

一、遷移學習基本概念

1、遷移學習概念:遷移學習,是指利用數據、任務、或模型之間的相似性,將在舊領域學習過的模型,應用於新領域的一種學習過程。
2、爲什麼需要遷移學習及遷移學習的解決方法

  • 大數據與少標註之間的矛盾:在大數據時代每天都產生海量的圖像、文本、語言等各類數據,但這些數據往往都是很初級的原始形態,很少有正確的人工標註。
    *遷移數據標註:*尋找一些與目標數據相近的有標註的數據,從而利用這些數據來構建模型,增加我們的目標數據的標註。

  • 大數據與弱計算之間的矛盾:大數據需要大設備、強計算能力的設備進行存儲和計算,絕大多數普通用戶不可能有這些強計算能力。
    模型遷移: 將在大數據上訓練好的模型遷移到我們的任務上,再根據我們的任務進一步微調。

  • 普適化模型與個性化需求之間的矛盾: 機器學習的目標是構建一個儘可能通用的模型,儘量提高模型的泛化能力,但是人們的個性化需求五花八門。
    *自適應學習:*考慮到不同用戶之間的相似性和差異性,我們對普適化模型進行靈活調整。

  • 特定應用的需求:現實生活中存在一些特定的應用,它們面臨着一些顯示存在的問題,比如推薦系統的冷啓動問題,一個新的推薦系統,沒有足夠的用戶數據,如何進行精準的推薦。
    相似領域知識遷移: 從數據和模型方法上進行遷移學習
    3、與已有概念的區別和聯繫

  • 傳統機器學習
    在這裏插入圖片描述

  • 多任務學習
    多任務:多個任務協同學習

  • 終身學習:可認爲是序列化的多任務學習,面對新的任務,不遺忘之前學習的任務而繼續學習

  • 領域自適應:是遷移學習的研究內容之一,側重於解決特徵空間一致沒類別空間一致,僅特徵分佈不一致的問題。

  • 增量學習:數據不斷到來,模型不斷更新

  • 自我學習:模型不斷地從自身處進行更新,遷移學習強調知識在不同領域間進行遷移

  • 協方差漂移:數據的邊緣概率分佈發生改變
    4、負遷移
    (1)負遷移指的是,在源域上學習到的知識,對於目標域上的學習產生負面作用
    (2)負遷移產生的原因:

  • 數據問題:源域和目標域壓根不相似

  • 方法問題:源域和目標域是相似的
    (3)克服負遷移的最新研究成果
    ==2015年楊強教授團隊的 == 傳遞遷移學習 Transitive transfer learning
    2017年楊強教授團隊的 遠領域遷移學習 Distant domain transfer learning

二、遷移學習研究領域

1、遷移學習常用分類方法
在這裏插入圖片描述
1.1 按照目標域標籤分
目標域有無標籤
監督遷移學習/半監督遷移學習/無監督遷移學習
1.2按學習方法分類

  • 基於樣本的遷移學習
    直接對不同的樣本賦予不同權重,比如說相似的樣本,我就給它高權重

  • 基於特徵的遷移學習
    假設源域和目標域的特徵
    原來不在一個空間,或者說它們在原來那個空間上不相似,那我們就想辦法把它們變換到一個空間裏面

  • 基於關係的遷移學習
    挖掘和利用關係進行類比遷移

  • 基於模型的遷移學習
    構建參數共享的模型
    目前最熱的就是基於特徵還有模型的遷移,然後基於實例的遷移方法和他們結合起來使用。
    1.3按照特徵分類

  • 同構遷移學習

  • 異構遷移學習
    特徵語意和維度
    1.4按離線與在線形式分

  • 離線遷移學習

  • 在線遷移學習
    是否能夠對新加入的數據進行學習,改進模型

三、遷移學習的應用

1、計算機視覺
2、文本分類
3、時間序列
4、醫療健康

四、基礎知識

1、遷移學習的問題形式化
在遷移學習中的兩個基本概念:領域(Domain),任務(Task)
定義如下:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
2、總體思路
(1)遷移學習的總體思路可以概括爲:開發算法來最大限度地利用有標註的領域的知識,來輔助目標領域的知識獲取和學習
找到相似性 (不變量),是進行遷移學習的核心。
相似性是核心,度量準則是重要手段。
3、度量準則
度量就
是描述源域和目標域這兩個領域的距離:
在這裏插入圖片描述
(1)常見的幾種距離

  • 歐氏距離

  • 閔可夫斯基距離:兩個向量(點)

  • 馬氏距離
    (2)相似度

  • 餘弦相似度:衡量兩個向量的相關性

  • 互信息:定義在兩個概率分佈上

  • 皮爾遜相關係數:衡量兩個隨機變量的相關性

  • Jaccard相關係數:判斷兩個集合的相關性
    (3)KL散度與JS距離
    KL散度和JS距離是遷移學習中被廣泛應用的度量手段

  • LS散度:相對熵,衡量兩個概率分佈的距離,這是一個非對稱距離

  • JS距離:基於KL散度發展而來,是對稱度量
    (4)最大均值差異MMD
    最大均值差異是遷移學習中使用頻率最高的度量。 Maximum mean discrepancy,它度量在再生希爾伯特空間中兩個分佈的距離,是一種核學習方法。兩個隨機變量的 MMD 平方距離爲:
    在這裏插入圖片描述
    在這裏插入圖片描述
    (5)Principal Angle
    將兩個分佈映射到高維空間(格拉斯曼流形)中,在流形中兩堆數據就可以看成兩個點。
    (6)A-distance
    是一個很簡單卻很有用的度量,此距離可以用於估計不同分佈之間的差異性。A-distance被定義爲建立一個線性分類器來區分兩個數據領域的hinge損失。
    (7)Hilbert-Schmidt Independence Criterion
    希爾伯特-施密特獨立性係數,用來檢驗兩組數據的獨立性。
    (8)Wasserstein Distance
    用來衡量兩個概率分部之間距離的度量方法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章