遷移學習研究綜述

Sinno Jialin Pan and Qiang Yang,Fellow, IEEE
摘要：
在許多機器學習和數據挖掘算法中，一個重要的假設就是目前的訓練數據和將來的訓練數據，一定要在相同的特徵空間並且具有相同的分佈。然而，在許多現實的應用案例中，這個假設可能不會成立。比如，我們有時候在某個感興趣的領域有個分類任務，但是我們只有另一個感興趣領域的足夠訓練數據，並且後者的數據可能處於與之前領域不同的特徵空間或者遵循不同的數據分佈。這類情況下，如果知識的遷移做的成功，我們將會通過避免花費大量昂貴的標記樣本數據的代價，使得學習性能取得顯著的提升。近年來，爲了解決這類問題，遷移學習作爲一個新的學習框架出現在人們面前。這篇綜述主要聚焦於當前遷移學習對於分類、迴歸和聚類問題的梳理和回顧。在這篇綜述中，我們主要討論了其他的機器學習算法，比如領域適應、多任務學習、樣本選擇偏差以及協方差轉變等和遷移學習之間的關係。我們也探索了一些遷移學習在未來的潛在方法的研究。

關鍵詞： 遷移學習；綜述；機器學習；數據挖掘

1 引言

數據挖掘和機器學習已經在許多知識工程領域實現了巨大成功，比如分類、迴歸和聚類。然而，許多機器學習方法僅在一個共同的假設的前提下：訓練數據和測試數據必須從同一特種空間中獲得，並且需要具有相同的分佈。當分佈情況改變時，大多數的統計模型需要使用新收集的訓練樣本進行重建。在許多現實的應用中，重新收集所需要的訓練數據來對模型進行重建，是需要花費很大代價或者是不可能的。如果降低重新收集訓練數據的需求和代價，那將是非常不錯的。在這些情況下，在任務領域之間進行知識的遷移或者遷移學習，將會變得十分有必要。

許多知識工程領域的例子，都能夠從遷移學習中真正獲益。舉一個網頁文件分類的例子。我們的目的是把給定的網頁文件分類到幾個之前定義的目錄裏。作爲一個例子，在網頁文件分類中，可能是根據之前手工標註的樣本，與之關聯的分類信息，而進行分類的大學網頁。對於一個新建網頁的分類任務，其中，數據特徵或數據分佈可能不同，因此就出現了已標註訓練樣本的缺失問題。因此，我們將不能直接把之前在大學網頁上的分類器用到新的網頁中進行分類。在這類情況下，如果我們能夠把分類知識遷移到新的領域中是非常有幫助的。

當數據很容易就過時的時候，對於遷移學習的需求將會大大提高。在這種情況下，一個時期所獲得的被標記的數據將不會服從另一個時期的分佈。例如室內wifi定位問題，它旨在基於之前wifi用戶的數據來查明用戶當前的位置。在大規模的環境中，爲了建立位置模型來校正wifi數據，代價是非常昂貴的。因爲用戶需要在每一個位置收集和標記大量的wifi信號數據。然而，wifi的信號強度可能是一個時間、設備或者其他類型的動態因素函數。在一個時間或一臺設備上訓練的模型可能導致另一個時間或設備上位置估計的性能降低。爲了減少再校正的代價，我們可能會把在一個時間段（源域）內建立的位置模型適配到另一個時間段（目標域），或者把在一臺設備(源域)上訓練的位置模型適配到另一臺設備（目標域）上。

對於第三個例子，關於情感分類的問題。我們的任務是自動將產品（例如相機品牌）上的評論分類爲正面和負面意見。對於這些分類任務，我們需要首先收集大量的關於本產品和相關產品的評論。然後我們需要在與它們相關標記的評論上，訓練分類器。因此，關於不同產品牌的評論分佈將會變得十分不一樣。爲了達到良好的分類效果，我們需要收集大量的帶標記的數據來對某一產品進行情感分類。然而，標記數據的過程可能會付出昂貴的代價。爲了降低對不同的產品進行情感標記的註釋，我們將會訓練在某一個產品上的情感分類模型，並把它適配到其它產品上去。在這種情況下，遷移學習將會節省大量的標記成本。

在這篇文章中，我們給出了在機器學習和數據挖掘領域，遷移學習在分類、迴歸和聚類方面的發展。同時，也有在機器學習方面的文獻中，大量的遷移學習對增強學習的工作。然而，在這篇文章中，我們更多的關注於在數據挖掘及其相近的領域，關於遷移學習對分類、迴歸和聚類方面的問題。通過這篇綜述，我們希望對於數據挖掘和機器學習的團體能夠提供一些有用的幫助。

接下來本文的組織結構如下：在接下來的四個環節，我們先給出了一個總體的全覽，並且定義了一些接下來用到的標記。然後，我們簡短概括一下遷移學習的發展歷程，同時給出遷移學習的統一定義，並將遷移學習分爲三種不同的設置（在圖2和表2中給出）。我們對於每一種設置回顧了不同的方法，在表3中給出。之後，在第6節，我們回顧了一些當前關於“負遷移”這一話題的研究，即那些發生在對知識遷移的過程中，產生負面影響的時候。在第7節，我們介紹了遷移學習的一些成功的應用，並且列舉了一些已經發布的關於遷移學習數據集和工具包。最後在結論中，我們展望了遷移學習的發展前景。

2 概述

2.1 有關遷移學習的簡短歷史

傳統的數據挖掘和機器學習算法通過使用之前收集到的帶標記的數據或者不帶標記的數據進行訓練，進而對將來的數據進行預測。在版監督分類中這樣標註這類問題，即帶標記的樣本太少，以至於只使用大量未標記的樣本數據和少量已標記的樣本數據不能建立良好的分類器。監督學習和半監督學習分別對於缺失數據集的不同已經有人進行研究過。例如周和吳研究過如何處理噪音類標記的問題。楊認爲當增加測試時，可以使得代價敏感的學習作爲未來的樣本。儘管如此，他們中的大多數假定的前提是帶標記或者是未標記的樣本都是服從相同分佈的。相反，遷移學習允許訓練和測試的域、任務以及分佈是不同的。在現實中我們可以發現很多遷移學習的例子。例如我們可能發現，學習如何辨認蘋果將會有助於辨認梨子。類似的，學會彈電子琴將會有助於學習鋼琴。對於遷移學習研究的驅動，是基於事實上，人類可以智能地把先前學習到的知識應用到新的問題上進而快速或者更好的解決新問題。最初的關於遷移學習的研究是在NIPS-95研討會上，機器學習領域的一個研討話題“學會學習”，就是關注於保留和重用之前學到的知識這種永久的機器學習方法。

自從1995年開始，遷移學習就以不同的名字受到了越來越多人的關注：學會學習、終生學習、知識遷移、感應遷移、多任務學習、知識整合、前後敏感學習、基於感應閾值的學習、元學習、增量或者累積學習。所有的這些，都十分接近讓遷移學習成爲一個多任務學習的一個框架這樣的學習技術，即使他們是不同的，也要儘量學習多項任務。多任務學習的一個典型的方法是揭示是每個任務都受益的共同（潛在）特徵。

在2005年，美國國防部高級研究計劃局的信息處理技術辦公室發表的代理公告，給出了遷移學習的新任務：把之前任務中學習到的知識和技能應用到新的任務中的能力。在這個定義中，遷移學習旨在從一個或者多個源任務中提取信息，進而應用到目標任務上。與多任務學習相反，遷移學習不是同時學習源目標和任務目標的內容，而是更多的關注與任務目標。在遷移學習中，源任務和目標任務不再是對稱的。

Fig. 1. Different Learning Processes between TraditionalMachine Learning and Transfer Learning 圖1展示了傳統的學習和遷移學習的學習過程之間的不同。我們可以看到，傳統的機器學習技術致力於從每個任務中抓取信息，而遷移學習致力於當目標任務缺少高質量的訓練數據時，從之前任務向目標任務遷移知識。

如今，遷移學習出現在許多頂級期刊上，令人注意的數據挖掘（比如ACM KDD,IEEE ICDM和PKDD），機器學習(比如ICML,ICDM和PKDD）和應用在數據挖掘和機器學習（比如ACM SIGIR,WWW和ACL）上。在我們給出遷移學習不同的類別的時候，我們首先描述一下本文中用到的符號。

2.2 符號和定義

在本節中，我們介紹了本文中使用的一些符號和定義。首先，我們分別給出“域”和“任務"的定義。

在本綜述中，域 $\mathcal{D}$ 包含兩部分：一個特徵空間 $\mathcal{X}$ 和一個邊緣概率分佈 $P(X)$ 。其中 $X=\{x_1, x_2, ..., x_n\} \in \mathcal{X}$ 。比如我們的學習任務是文本分類，每一個術語被用作一個二進制特徵，然後 $\mathcal{X}$ 就是所有的術語向量的空間， $x_i$ 是第 $i$ 個與一些文本相關的術語向量。X是一個特別的學習樣本。總的來說，如果兩個域不同，那麼它們會有不同的特徵空間或者服從不同的邊緣概率分佈。

給定一個具體的域， $\mathcal{D}=\{\mathcal{X}, P(X)\}$ ，一個任務由兩部分組成：一個標籤空間 $\mathcal{Y}$ 和一個目標預測函數 $f(\cdot)$ （由 $\mathcal{T}=\{\mathcal{Y},f(\cdot)\}$ 表示）。任務不可被直觀觀測，但是可以通過訓練數據學習得來。任務由pair $\{x_i, y_i\}$ 組成，且 $x_i \in X, y_i \in \mathcal{Y}$ 。函數 $f(\cdot)$ 可用於預測新的例子 $x$ 的標籤 $f(x)$ 。從概率學角度看， $f(x)$ 也可被寫爲 $P(y|x)$ 。在我們的文本分類例子裏， $\mathcal{Y}$ 是所有標籤的空間，對二元分類任務來說，就是“真”和“假”， $y_i$ j就是“真”或“假”。
簡化起見，本文中我們只考慮一個源域 $\mathcal{D}_S$ 和一個目標域 $\mathcal{D}_T$ 。更準確點，用 $\mathcal{D}_S=\{(x_{S_1}, y_{S_1})， ... , (x_{S_{n_S}}, y_{S_{n_S}})\}$ , 其中 $x_{S_i} \in \mathcal{X}_S$ 表示數據實例, $y_{S_i} \in \mathcal{Y}_S$ 是對應的分類標籤。在文檔分類例子中， $\mathcal{D}_S$ 是文檔對象向量及對應的真或假標籤的集合。相似地，目標域記作： $\mathcal{D}_T=\{(x_{T_1}, y_{T_1})， ... , (x_{T_{n_T}}, y_{T_{n_T}})\}$ , 其中輸入 $x_{T_i} \in \mathcal{X}_S$ ， $y_{T_i} \in \mathcal{Y}_T$ 是對應的輸出。多數情況下源域觀測樣本數目 $n_S$ 與目標域觀測樣本數目 $n_T$ 之間有如下關係： $0≤n_T\ll n_S$ 。
現在我們給出遷移學習的統一定義：
Definition 1 (Transfer learning): 給定源域 $\mathcal{D}_S$ 和學習任務 $\mathcal{T}_S$ ，一個目標域 $\mathcal{D}_T$ 和學習任務 $\mathcal{T}_T$ ，遷移學習致力於用 $\mathcal{D}_S$ 和 $\mathcal{T}_S$ 中的知識，幫助提高 $\mathcal{D}_T$ 中目標預測函數 $f_T(\cdot)$ 的學習。並且有 $\mathcal{D}_S$ ≠ $\mathcal{D}_T$ 或 $\mathcal{T}_S$ ≠ $\mathcal{T}_T$ 。

在上面定義中， $\mathcal{D}=\{\mathcal{X},P(X)\}$ ，條件 $\mathcal{D}_S$ ≠ $\mathcal{D}_T$ 意味着源域和目標域實例不同 $\mathcal{X}_S$ ≠ $\mathcal{X}_T$ 或者源域和目標域邊緣概率分佈不同 $P_S(X)$ ≠ $P_T(X)$ 。同理 $\mathcal{T}=\{\mathcal{Y},P(Y|X)\}$ ， $\mathcal{T}_S$ ≠ $\mathcal{T}_T$ 意味着源域和目標域標籤不同（ $\mathcal{Y}_S$ ≠ $\mathcal{Y}_T$ ）或者源域和目標域條件概率分佈不同（ $P(Y_S|X_S)$ ≠ $P(Y_T|X_T)$ ）。當源域和目標域相同 $\mathcal{D}_S$ = $\mathcal{D}_T$ 且源任務和目標任務相同 $\mathcal{T}_S$ = $\mathcal{T}_T$ ，則學習問題變成一個傳統機器學習問題。

以文檔分類爲例，域不同有以下兩種情況：

特徵空間不同，即 $\mathcal{X}_S$ ≠ $\mathcal{X}_T$ 。可能是文檔的語言不同。
特徵空間相同但邊緣分佈不同，即 $P(X_S)$ ≠ $P(X_T)$ ,其中 $X_{S_i}\in\mathcal{X}_S$ ， $X_{T_i}\in\mathcal{X}_T$ 。可能是文檔主題不同。

給定域 $\mathcal{D}_S$ 和 $\mathcal{D}_T$ ，學習任務不同可能有以下兩種情況：

域間標籤空間不同，即 $\mathcal{Y}_S$ ≠ $\mathcal{Y}_T$ 。可能是源域中文檔需要分兩類，目標域需要分十類。
域間條件概率分佈不同，即 $P(Y_S|X_S)$ ≠ $P(Y_T|X_T)$ 。
除此之外，當兩個域或者特徵空間之間無論顯式或隱式地存在某種關係時，我們說源域和目標域相關。

2.3遷移學習分類

遷移學習主要有以下三個研究問題：1）遷移什麼，2）如何遷移，3）何時遷移。
“遷移什麼”提出了遷移哪部分知識的問題。一些知識對單獨的域或任務有用，一些知識對不同的領域是通用的，可以用來提高目標域或目標任務的性能。
“何時遷移”提出了哪種情況下運用遷移學習。當源域和目標域無關時，強行遷移可能並不會提高目標域上算法的性能，甚至會損害性能。這種情況稱爲負遷移。當前大部分關於遷移學習的工作關注於“遷移什麼”和“如何遷移”，隱含着一個假設：源域和目標域彼此相關。然而，如何避免負遷移是一個很重要的問題。
基於遷移學習的定義，我們歸納了傳統機器學習方法和遷移學習的異同見下表。

推導遷移學習（inductive transfer learning）（也叫歸納遷移學習¹）
目標任務和源任務不同，無論目標域與源域是否相同。
這種情況下，要用目標域中的一些已標註數據生成一個客觀預測模型 $f(\cdot)$ 以應用到目標域中。除此之外，根據源域中已標註和未標註數據的不同情況，可以進一步將inductive transfer learning分爲兩種情況：

源域中大量已標註數據可用。這種情況下推導遷移學習和多任務學習類似。然而，推導遷移學習只關注於通過從源任務中遷移知識以便在目標任務中獲得更高性能，然而多任務學習嘗試同時學習源任務和目標任務。
源域中無已標註數據可用。這種情況下推導遷移學習和自我學習相似。自我學習中，源域和目標域間的標籤空間可能不同，這意味着源域中的邊緣信息不能直接使用。因此當源域中無已標註數據可用時這兩種學習方法相似。

轉導遷移學習（transductive transfer learning）(又叫直推式遷移學習)
源任務和目標任務相同，源域和目標域不同。這種情況下，目標域中無已標註數據可用，源域中有大量已標註數據可用。除此之外，根據源域和目標域中的不同狀況，可以進一步將轉導遷移學習分爲兩類：

源域和目標域中的特徵空間不同，即 $\mathcal{X}_S$ ≠ $\mathcal{X}_T$ ；
源域和目標域間的特徵空間相同， $\mathcal{X}_S$ = $\mathcal{X}_T$ ，但輸入數據的邊緣概率分佈不同，即 $P(X_S)$ ≠ $P(X_T)$ .
轉導遷移學習中的後一種情況與自適應學習相關，因爲文本分類、樣本選擇偏差和協方差移位中的知識遷移都有相似的假設。

無監督遷移學習（unsupervised transfer learning）
與推導遷移學習相似，目標任務與源任務不同但相關。然而，無監督遷移學習專注於解決目標域中的無監督學習問題，如聚類、降維、密度估計。這種情況下，訓練中源域和目標域都無已標註數據可用。
遷移學習中不同分類的聯繫及相關領域被總結在Table2和Fig2中。

Fig. 2. An Overview of Different Settings of Transfer 上述三種遷移學習可以基於“遷移什麼”被分爲四種情況，如Table3所示。Table3中展示了四種情況和簡短的描述。

第一種可以被稱爲基於實例的遷移學習，源域中的數據的某一部分可以通過權重調整的方法重用，用於目標域的學習。實例權重調整和重要性採樣是這種方法的兩種主要技術。
第二種可以被稱爲基於特徵表示的遷移學習，這種情況的直觀想法是爲目標域訓練一個“好”的特徵表示。在這種情況下,用於跨域傳輸的知識被編碼爲學習的特徵表示形式。使用新功能表示形式,目標任務的性能有望顯著提高。第三種情況可稱爲基於參數的遷移學習方法。這種方法假設假定源任務和目標任務共享模型的超參數的某些參數或先前的超參數分佈。最後一種方法可稱作關係知識遷移學習（Transferring Relational Knowledge
）問題，它處理的是有聯繫的域。其基本假設是源域和目標域中某些數據之間關係是相似的。所以要遷移的是數據間的關係。最近，統計關係學習技術主導了這一領域。
表4展示了不同遷移學習分類中不同方法的使用情況。我們可以看到，許多研究工作研究了推導遷移學習而無監督遷移學習是一個相當新的研究話題，而且在上下文中只使用基於特徵表示的遷移學習方法對其進行了研究。而且基於特徵表示的遷移學習問題在三類遷移學習中都被提及。然而，基於參數的遷移學習和關係知識遷移學習方只在推導遷移學習中研究過，我們將在下面詳細討論推導遷移學習。

3.推導遷移學習

定義：給出一個源域 $\mathcal{D}_S$ 和源任務 $\mathcal{T}_S$ ，目標域 $\mathcal{D}_T$ 目標任務 $\mathcal{T}_T$ ，推導遷移學習的目標是在 $\mathcal{T}_S$ ≠ $\mathcal{T}_T$ 的情況下，利用 $\mathcal{D}_S$ 和 $\mathcal{T}_S$ 的知識，幫助提升 $\mathcal{D}_T$ 中的目標預測函數 $f_T(\cdot)$ 。
基於以上的推導遷移學習的定義，用目標域中一小部分已標註數據作爲訓練數據以誘導（induce）目標預測函數是有必要的。在2.3部分提到，這種分類包含兩種情況：（1）源域中標註數據可得到；（2）源域中已標註數據不可得，未標註數據可得。這一分類下大多數遷移學習方法聚焦在前一種情況。

3.1遷移實例知識

推導遷移學習中基於實例的遷移學習方法直觀上很有吸引力：儘管源域數據不能直接重用，但還是有一部分特定數據可以和目標域中的一些已標註數據實現重用。
Dai等人爲解決推導遷移學習問題提出了一個增強算法TrAdaBoost,它是AdaBoost算法的一個擴展，TrAdaBoost算法假設源域和目標域數據使用相同的特徵集和標籤集，但兩個域中的數據分佈不同。除此之外，因爲源域和目標域的分佈不同，因此TrAdaBoost進一步假設源域中的部分數據對目標域的學習有用，另一部分數據沒用甚至有害。它嘗試對源域數據迭代式地重加權以減輕壞的源域數據對目標域的影響，增強好數據的增益。迭代的每一輪，TrAdaBoost在加權過的源數據和目標數據上訓練基本分類器。只在目標數據上計算錯誤。TrAdaBoost在更新目標域上的錯誤分類樣例上和AdaBoost使用相同策略，在更新源域上的錯誤分類源樣例上和AdaBoost使用不同策略。TrAdaBoost的具體理論分析見[6]。 Jiang and Zhai
30]提出了一種基於不同條件概率 $P\left(y_{T} | x_{T}\right)$ ,和 $P\left(y_{S} | x_{S}\right)$ 的從源域中移除誤導性訓練樣例的啓發式方法。liao等人[31]提出了一種新的主動學習方法,藉助源域數據進行標記來選擇目標域中的未標記數據。Wu and Dietterich [53]集成源域(輔助)數據支持向量機 (SVM) 框架,以提高分類性能。

3.2轉移特徵表示的知識

推導遷移學習的基於特徵表示的遷移方法致力於找到好的特徵表示去最小化域差異以及分類和迴歸模型誤差。不同類型的源數據有找好特徵表示的不同策略。如果源域中大量已標註數據可用，有監督方式可以被用於構建特徵表示。這有點像多任務學習中的共性特徵學習。如果源域中沒有已標註數據可用，就要使用無監督方式去構建特徵表示。

3.2.1 有監督特徵構建

推導遷移學習中的有監督特徵構建與多任務學習中使用的方法類似。基本想法是去構建一個可以跨相關任務的低維表示，而且學習到的新表示也可以用於減小每個任務的分類或迴歸誤差。Argyriou et al. [40]提出了一種針對多任務學習的稀疏特徵學習方法。在推導遷移學習中，可以通過一個優化問題來學習公共特徵，見下式：
$\underset{A, U}{\arg \min } \sum_{t \in\{T, S\}} \sum_{i=1}^{n_{t}} L\left(y_{t_{i}},\left\langle a_{t}, U^{T} x_{t_{i}}\right\rangle\right)+\gamma\|A\|_{2,1}^{2}\\ \ s.t.\quad U \in \mathbf{O}^{d}\tag{1}$
$S$ 和 $T$ 表示源域和目標域中的任務， $A=[a_S,a_T]∈R^{d×2}$ 是參數矩陣。 $U$ 是一個 $d×d$ 的正交矩陣（映射函數）用於將高維數據映射成爲低維表示。A的 $(r,p)$ 範數爲 $\|A\|_{r, p} :=\left(\sum_{i=1}^{d}\left\|a^{i}\right\|_{r}^{p}\right)^{\frac{1}{p}}$ 。上式表達的優化問題同時估計了低維表示 $U^TX_T, U^TX_S$ 和模型的參數 $A$ ，上式也可被等效轉化爲凸優化函數並被高效地解決。後續工作中，Argyriou et al. [41]提出了一種用於多任務結構學習的光譜正則化框架。
Lee等人[42]提出了一個凸優化算法,用於同時從一系列相關的預測任務中學習元序（metapriors）和特徵權重。元序（metapriors）可以在不同的任務之間遷移。Jebara [43] 建議使用 SVM 選擇特徵進行多任務學習。Ru¨ ckert and Kramer [54]爲推導遷移學習設計了一種基於內核的方法,旨在爲目標數據找到合適的內核。
3.2.2 無監督特徵構建
[22]提出以應用稀疏編碼，它是一種無監督特徵構建方法，在遷移學習中學習高維特徵。這種想法基本由兩部構成：第一步，通過在源域數據上求解(2)式得到更高層的偏置向量 $b=\{b1,b2,...,bS\}$ ：

$\min _{a, b} \sum_{i}\left\|x_{S_{i}}-\sum_{j} a_{S_{i}}^{j} b_{j}\right\|_{2}^{2}+\beta\left\|a_{S_{i}}\right\|_{1}\\ s.t.\quad\left\|b_{j}\right\|_{2} \leq 1, \quad \forall j \in 1, \ldots, s \tag{2}$

在這一等式中 $a_{S_{i}}^{j}$ 是一種新的基礎表示形式，輸入 $x_{S_{i}}$ 和 $\beta$ 是平衡特徵構造項的係數和正則化項係數，得到偏置向量b之後，第二步在目標域數據上應用(3)式以學習基於偏置向量b的更高維特徵
$a_{T_{i}}^{*}=\underset{a_{T_{i}}}{\arg \min }\left\|x_{T_{i}}-\sum_{j} a_{T_{i}}^{j} b_{j}\right\|_{2}^{2}+\beta\left\|a_{T_{i}}\right\|_{1}. \tag{3}$
最後,可以將鑑別算法應用於 $\{a_{T_{i}}^{*}\}'s$ ,並帶有相應的標籤,以用於目標域訓練分類或迴歸模型。此方法的一個缺點是,在優化問題 (2) 中在源域上學習的所謂較高級別基礎向量可能不適合在目標域中使用。
最近,多種學習方法被改編成轉移學習。在[44]中,Wang和Mahadevan提出了一種基於普魯克分析的方法,用於無對應的歧管對齊,該方法可用於通過對齊歧管跨領域遷移知識。

3.3 Transferring Knowledge of Parameters

大多數推導遷移學習的基於參數的遷移方法都假設相關任務的不同模型之間共享一些參數或更高層的超參數分佈。這部分描述的大多數方法包括一個規則化框架一個多層貝葉斯框架，都被設計在多任務學習下工作。然而，它們可以很容易地爲遷移學習修改。就像之前提到的，多任務學習試圖同時完美地學習源任務和目標任務，而遷移學習只想利用源域數據提升目標域數據下的性能。因此，多任務學習中對源域和目標域數據的損失函數的權重都一樣，而對遷移學習這兩者的權重則不同。直觀地，我們可以對目標域上的損失函數賦予更高的權重以確保目標域上的效果更好。
Lawrence and Platt[45]提出了一個高效的算法叫MT-IVM，基於高斯過程，以處理多任務學習的情況。MT-IVM試圖通過共享相同高斯過程先驗參數以在多任務情況下學習高斯過程的參數。Bonilla et al.[46]也在高斯過程情況下調研了多任務學習。作者建議對任務使用自由形式的協方差矩陣來建模任務間依賴關係,其中高斯過程先驗（GP prior）被用於歸納出任務之間的相關性。
除了遷移高斯過程模型的先驗信息，一些研究也提出了遷移
正則化框架下SVMs模型的參數。Evgeniou and Pontil[48]在研究多任務學習中SVMs方法借用了HB算法的想法。提出的方法假設對每個任務中SVMs的參數 $w$ 可以被分成兩個術語。一個是對任務的通用術語，一個是對特殊任務的術語。在推導遷移學習中，
$w_S=w_0+v_S ,w_T=w_0+v_T$
其中， $w_S$ 和 $w_T$ 分別是源任務和目標學習任務的SVMs算法的參數。 $w_0$ 是一個通用參數， $v_S和v_T$ 分別是源任務和目標任務的特殊參數。通過假設 $f_t=w_t\cdot x$ 是任務 $t$ 的超平面，SVM算法的一個多任務學習方面的擴展可寫成如下形式：
$\begin{aligned} &\min _{w_{0}, v_{t}, \xi_{t_{i}}} J\left(w_{0}, v_{t}, \xi_{t_{i}}\right)\\ &=\sum_{t \in\{S, T\}} \sum_{i=1}^{n_{t}} \xi_{t_{i}}+\frac{\lambda_{1}}{2} \sum_{t \in\{S, T\}}\left\|v_{t}\right\|^{2}+\lambda_{2}\left\|w_{0}\right\|^{2}\\ &s.t.\quad y_{t_{i}}\left(w_{0}+v_{t}\right) \cdot x_{t_{i}} \geq 1-\xi_{t_{i}}\\ &\xi_{t_{i}} \geq 0, i \in\left\{1,2, \ldots, n_{t}\right\} \text { and } t \in\{S, T\}\tag{4} \end{aligned}$
通過解決上面的優化問題，我們可以同時學習到參數 $w_0,v_S和v_T$ 。Gao et al. [49]提出了一個本地加權集合學習框架,以組合多個用於遷移學習的模型,其中權重根據模型在目標域中每個測試示例上的預測能力動態分配。

3.4 關係知識遷移學習

不同於以上三種方法，關係知識遷移學習方法在關係域中處理遷移學習問題，其數據分佈不同且可以被多種關係表示，例如網絡關係和社會網絡關係。此方法並不假定從每個域中提取的數據是獨立且與傳統上假定的分佈相同。它嘗試着把數據聯繫從源域遷移到目標域，在此背景下,提出了統計關係學習技術來解決這些問題。
Mihalkova等人提出了一種算法TAMAR,該算法將關係知識通過馬爾科夫邏輯網絡(MLNs)跨關係域遷移。MLNs [56] 是一種強大的形式體系,它結合了一階邏輯的簡潔表現力和概率的靈活性,用於統計關係學習。在 MLNs 中,關係域中的實體由謂詞表示,其關係以一階邏輯表示。TAMAR 的動機是,如果兩個域彼此相關,則可能存在映射,將實體及其關係從源域連接到目標域。例如,教授在學術領域扮演的角色,在工業管理領域擔任管理者所扮演的角色相似。此外,教授與學生之間的關係與管理者與員工之間的關係相似。因此,可能存在從教授到經理的映射,以及從教授-學生關係到經理-工人關係的映射。在此方面,TAMAR 嘗試使用源域學習的 MLN 來幫助學習目標域的 MLN。基本上,TAMAR 是一個兩階段算法。在第一步中,基於加權僞日誌可能性度量 (WPLL) 從源 MLN 構造到目標域的映射。在第二步中,通過FORTE算法[57]對目標域中的映射結構進行修訂,該算法是一種用於修正一階理論的歸納邏輯編程(ILP)算法。修訂後的 MLN 可用作目標域中推理或原因的關係模型。
在AAAI-2008複雜任務轉移學習研討會上,Mihalkova and Mooney[51]擴展TAMAR到以單實體爲中心的遷移學習,其中目標域中只有一個實體可用。Davis and Domingos[52]提出了一種基於二階馬爾科夫邏輯轉移關係知識的方法。該算法的基本思想是,通過實例化這些公式與目標域中的謂詞,以帶有謂詞變量的馬爾科夫邏輯公式的形式發現源域中的結構規律。

4 轉導遷移學習

轉導遷移學習話題的是Arnold et al. [58]提出的，他們要求源任務和目標任務相同，儘管域可能不同。除了這些條件之外,他們進一步要求目標域中的所有未標記數據在訓練時都可用,但我們相信這種情況可以放寬;相反,在我們定義轉導遷移學習時,我們僅要求在訓練時查看部分未標記的目標數據,以便獲得目標數據的邊際概率。
請注意,"轉導"一詞具有多種含義。在傳統的機器學習環境中,轉導式學習 [59] 是指在訓練時需要查看所有測試數據,並且所學模型不能用於將來數據的情況。因此,當一些新的測試數據到達時,它們必須與所有現有數據一起分類。相反,在轉移學習的分類中,我們使用"轉導"一詞來強調這樣一個概念,即在這種類型的轉移學習中,任務必須相同,並且目標域中必須有一些未標記的數據。

轉導遷移學習定義：

給定源域 $\mathcal{D}_S$ 和相應的學習任務 $\mathcal{T}_S$ 、目標域 $\mathcal{D}_T$ 和相應的學習任務 $\mathcal{T}_T$ ,轉導遷移學習旨在利用 $\mathcal{D}_S$ 和 $\mathcal{T}_S$ 中的知識,改進目標預測函數 $f_T(\cdot)$ 的學習,其中 $\mathcal{D}_S$ ≠ $\mathcal{D}_T$ 和 $\mathcal{T}_S$ = $\mathcal{T}_T$ 。此外,某些未標記的目標域數據必須在訓練時可用。

這一定義涵蓋Arnold等人的工作[58],因爲後者考慮了領域適應,其中來源數據和目標數據的邊際概率分佈之間存在差異;即任務相同,但域不同。
與傳統轉導式學習設置類似,後者旨在充分利用未標記的測試數據進行學習,在轉換傳輸學習下的分類方案中,我們還假定給出了一些目標域未標記的數據。在上述轉導傳輸學習定義中,源任務和目標任務相同,這意味着可以通過一些未標記的目標域數據,將源域中學習的預測函數調整到目標域中。如第 2.3 節所述,此分類可以拆分爲兩種情況:（1）源域和目標域特徵空間不同， $\mathcal{X}_S$ ≠ $\mathcal{X}_T$ （2）源域和目標域特徵空間相同， $\mathcal{X}_S$ = $\mathcal{X}_T$ 但是輸入數據的邊際概率分佈不同， $P(X_S)$ ≠ $P(X_T)$ .這和自適應學習和樣本選擇偏差的要求類似。接下來描述的方法都和上面的第二種情況有關。

4.1遷移實例的知識

大多數轉導遷移學習的實例遷移方法都受到重要性採樣的激勵。爲了瞭解基於重要性採樣的方法在此環境中如何提供幫助,我們首先回顧了經驗風險最小化問題（ERM）[60]。一般來說，我們可能想要經驗最小化風險來學習模型最優參數 $\theta^{*}$

$\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \mathbb{E}_{(x, y) \in P}[l(x, y, \theta)]$
其中 $l(x, y, \theta)$ 是依賴於參數的損耗函數。但是,由於很難估計概率分佈 P,我們選擇最小化 ERM,
$\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \frac{1}{n} \sum_{i=1}^{n}\left[l\left(x_{i}, y_{i}, \theta\right)\right]$
其中，n是訓練數據的size（尺寸）。
在在轉導遷移學習中,我們希望通過經驗風險最小化來學習目標域的最佳模型,
$\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \sum_{(x, y) \in D_{T}} P\left(D_{T}\right) l(x, y, \theta)$
但是,由於在訓練數據中未觀察到目標域中標記數據,因此我們必須從源域數據中學習模型。如果 $P(D_S)=P(D_T)$ ,那麼我們只需通過解決以下優化問題來了解模型,以便用於目標域,
$\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \sum_{(x, y) \in D_{S}} P\left(D_{S}\right) l(x, y, \theta)$
當 $P(D_S)$ ≠ $P(D_T)$ 時，我們需要調整優化問題，以期爲目標域學習一個具有較高概括能力的模型，如下：
$\begin{aligned} \theta^{*}=\underset{\theta \in \Theta}{\arg \min } \sum_{(x, y) \in D_{S}} \frac{P\left(D_{T}\right)}{P\left(D_{S}\right)} P\left(D_{S}\right) l(x, y, \theta)\\ \approx \underset{\theta \in \Theta}{\arg \min } \sum_{i=1}^{n_{S}} \frac{P_{T}\left(x_{T_{i}}, y_{T_{i}}\right)}{P_{S}\left(x_{S_{i}}, y_{S_{i}}\right)} l\left(x_{S_{i}}, y_{S_{i}}, \theta\right).\tag{5} \end{aligned}$
因此,通過相應的權重 $\frac{P_{T}\left(x_{T_{i}}, y_{T_{i}}\right)}{P_{S}\left(x_{S_{i}}, y_{S_{i}}\right)}$ 爲每個實例添加不同的懲罰值 $(x_{S_{i}},y_{S_{i}},)$ ,我們可以使用相應的權重來學習目標域的精確模型。而且，因爲 $P\left(Y_{T} | X_{T}\right)=P\left(Y_{S} | X_{S}\right)$ ，所以 $P(D_S)$ 和 $P(D_T)$ 的不同主要又 $P(X_S)$ 和 $P(X_T)$ 造成，且
$\frac{P_{T}\left(x_{T_{i}}, y_{T_{i}}\right)}{P_{S}\left(x_{S_{i}}, y_{S_{i}}\right)}=\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$
如果我們可以爲每個實例預測 $\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$ ，我們就可以解決轉導遷移學習問題。
有多種預測 $\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$ 的方法。Zadrozny [24]提出構建簡單的分類問題來估計 $P\left(x_{S_{i}}\right)$ 和 $P\left(x_{T_{i}}\right)$ 。Fan等人[35]使用各種分類器對問題進行了進一步分析,估計了概率比。Huang等人[32]提出了一種內核均值匹配(KMM)算法,通過匹配在複製內核Hilbert空間(RKHS)中學習源域數據和目標域數據的方法算法來直接學習 $\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$ 。KMM 可以重寫爲以下二次編程 (QP) 優化問題。
$\begin{array} {ll}{\min _{\beta}} & {\frac{1}{2} \beta^{T} K \beta-\kappa^{T} \beta} \\ {\text {s.t.}} & {\beta_{i} \in[0, B] \text { and }\left|\sum_{i=1}^{n_{S}} \beta_{i}-n_{S}\right| \leq n_{S} \epsilon}\tag{6} \end{array}$
其中 $K=\left[\begin{array}{ll}{K_{S, S}} & {K_{S, T}} \\ {K_{T, S}} & {K_{T, T}}\end{array}\right]$
$K_{i j}=k\left(x_{i}, x_{j}\right)$ $K_{S, S}$ 和 $K_{T, T}$ 是源域和目標域數據的核矩陣。 $\kappa_{i}=\frac{n_{S}}{n_{T}} \sum_{j=1}^{n_{T}} k\left(x_{i}, x_{T_{j}}\right)$ 其中， $x_{i} \in X_{S} \cup X_{T}$ $x_{T_{j}} \in X_{T}$ 。
可證明： $\beta_{i}=\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$ [32]。使用KMM的優點在於避免計算 $P(x_{S_{i}})$ 或 $P(x_{T_{i}})$ 的密度估計，當數據集小的時候很難計算。Sugiyama等人[34]提出了一種稱爲"庫爾貝克-萊布勒重要性估計步驟(KLIEP)"的算法,以在最小化Kullback-Lebler不同的基礎上直接估計 $\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$ 。可以集成交叉驗證,通過兩個步驟自動執行模型選擇:1) 估計源域數據的權重,2) 在重加權數據上訓練模型。Bickel等人[33]通過派生一個內核邏輯迴歸分類器,將兩個步驟合併爲一個統一的框架。有關協變量移位或樣本選擇偏差的重要性採樣和重量化方法的更多信息,讀者可以參考 Quionero-Candela 等人最近出版的一本書 [29]。也可以參考ICDM-08中fan和Sugiyama的樣本選擇偏差教程。

4.2遷移特徵表示的知識

轉導遷移學習的大多數特徵表示遷移方法都在無監督的學習框架之下。Blitzer等人[38]提出了一種結構對應學習(SCL)算法,該算法擴展了[37],利用目標域中的未標記數據提取一些相關特徵,這些特徵可以縮小域之間的差異。SCL算法的第一步是在兩個域的無標註數據中定義一組樞軸特徵（數軸的特徵數量由 $m$ 表示）。然後SCL 從數據中刪除這些樞軸特徵,並將每個樞軸要素視爲新的標註矢量。可以構造 m 分類問題。假設每個分類可以通過線性分類器解決，線性分類器如下：
$f_{l}(x)=\operatorname{sgn}\left(w_{l}^{T} \cdot x\right), l=1, \ldots, m$
SCL能夠學到一個參數矩陣 $W=\left[w_{1} w_{2} \dots w_{m}\right]$ 。第三步，奇異值分解 (SVD) 應用於矩陣 $W=\left[w_{1} w_{2} \dots w_{m}\right]$
使得 $W=U D V^{T},$ 於是， $\theta=U_{[1 ! h ;]}^{T}$ 是矩陣(線性映射),其行是 W 的左上單數矢量。 $h$ 是共享特徵的數量。最後,標準判別算法可以應用於增強特徵向量來構建模型。增強特徵矢量包含所有原始要素 $x_i$ ,並附加了新的共享要素 $\theta x_i$ 。如 [38] 中所述,如果樞軸特徵設計的好,則學習的映射將編碼不同域中的要素之間的對應關係。雖然Ben-David
等人[61]實驗表明,SCL可以減少域之間的差異;如何選擇樞軸特徵是困難的,並且依賴於域。在[38]中,Blitzer等人使用啓發式方法爲自然語言處理(NLP)問題選擇樞軸特徵,例如句子標記。在後續研究中,研究人員建議使用相互信息 (MI) 來選擇樞軸特徵,而不是使用更多啓發式標準 [8]。MI-SCL 嘗試尋找一些高度依賴源域中標籤的樞軸特徵。
NLP 領域中的遷移學習有時稱爲域適應。在此領域,Daume [39] 提出了針對 NLP 問題的內核映射函數,該函數將數據從源域和目標域映射到高維特徵空間,其中使用標準鑑別性學習方法來訓練分類器。但是,構建的內核映射函數是域知識驅動的。將內核映射概括爲其他領域或應用程序並不容易。Blitzer 等人 [62] 分析了算法的統一收斂邊界,這些算法將源和目標經驗風險的凸組合降至最低。在[36]中,Dai等人提出了一種基於共聚類的算法,用於在不同的域中傳播標籤信息。在[63]中,Xing等人提出了一種稱爲橋接細化（bridged refinement）的新算法,以糾正由轉移不感知分類器預測的標籤,並將訓練和測試數據的混合分佈作爲橋樑,以更好地從將數據訓練到測試數據。在[64]中,Ling等人提出了跨域遷移學習問題的光譜分類框架,其中引入了目標函數,以尋求域內監督與域外內在結構的一致性。在[65]中,薛等人提出了一種跨域文本分類算法,將傳統的概率潛在語義分析(PLSA)算法擴展爲將不同但相關領域的標記和未標記數據集成到一個統一的概率模型。新模型稱爲主題橋式 PLSA 或 TPLSA。潘等人最近提出通過維數減少遷移學習[66]在這項工作中,Pan等人利用了最初爲減小維數而設計的最大平均差異嵌入(MMDE)方法,學習低維空間,以減少不同域之間的分佈差異,以實現轉導遷移學習。但是,MMDE 可能會承受計算負擔。因此,在[67]中,Pan等人進一步提出了一種有效的特徵提取算法,稱爲轉移分量分析(TCA),以克服MMDE的缺點。

5無監督式遷移學習

定義4（無監督遷移學習）：給定一個源域 $\mathcal{D}_S$ 和學習任務 $\mathcal{T}_S$ 目標域 $\mathcal{D}_T$ 和對應的學習任務 $\mathcal{T}_T$ 無監督遷移學習的目標是使用 $\mathcal{D}_S$ 和目標域 $\mathcal{T}_S$ 的知識，幫助提升目標域中目標預測函數 $f_{T}(\cdot)$ 。其 $\mathcal{T}_{S}$ ≠ $\mathcal{T}_{T}$ 而且 $\mathcal{Y}_S$ 和 $\mathcal{Y}_T$ 是未標註的。
根據無監督傳輸學習設置的定義,在培訓中的源域和目標域中未觀察到標記數據。到目前爲止,關於此設置的研究工作很少。最近,分別提出了自學聚類(STC)[26]和遷移判性分析(TDA)[27]算法來遷移聚類和遷移減少維度數問題。

5.1 基於特徵表示遷移知識

Dai等人(26)研究了一個新的聚類問題案例,稱爲自學聚類（STC）。自學聚類是無監督傳輸學習的實例,它旨在通過源域中的大量未標記數據在目標域中集中少量未標記數據。STC 嘗試學習跨域的通用要素空間,這有助於在目標域中進行羣集。STC 的目標功能如下所示:
$\begin{aligned} &J\left(\tilde{X}_{T}, \tilde{X}_{S}, \tilde{Z}\right)\\ &\quad=I\left(X_{T}, Z\right)-I\left(\tilde{X}_{T}, \tilde{Z}\right)+\lambda\left[I\left(X_{S}, Z\right)-I\left(\tilde{X}_{S}, \tilde{Z}\right)\right]\tag{7} \end{aligned}$
其中， $X_S$ 和 $X_T$ 是源域和目標域數據。 $Z$ 是 $X_S$ 和 $X_T$ 的標準共享特徵空間， $I(\cdot, \cdot)$ 是兩個隨機變量的共同信息。假設存在三個聚類函數， $C_{X_{I}} : X_{T} \rightarrow \tilde{X}_{T}, C_{X_{s}} : X_{S} \rightarrow \tilde{X}_{S},$ and $C_{Z} : Z \rightarrow \tilde{Z}$ 。其中
$\tilde{X}_{T},\tilde{X}_{S}和\tilde{Z}$ 對應$X_T,X_S和Z的對應聚類。STC的目標是通過解決最優化問題（7）來學習 $\tilde{X}_{T}$ ：
$\underset{\tilde{X}_{T}, \vec{X}_{S}, \tilde{Z}}{\arg \min } J\left(\tilde{X}_{T}, \tilde{X}_{S}, \tilde{Z}\right)\tag{8}$
在 [26] 中給出了一種用於求解優化函數 (8) 的迭代算法。
同樣,Wang等人提出了一種TDA算法來解決遷移維數減少問題。TDA 首先應用聚類方法爲目標未標記的數據生成僞類標籤。然後,它將尺寸減少方法應用於目標數據和有標記的源數據以減少維度。這兩個步驟以迭代方式運行,以查找目標數據的最佳子空間。

6遷移邊界和負遷移

一個重要的問題是認識到遷移學習的能力的極限。在[68]中,Mahmud和Ray分析了使用柯爾莫戈羅夫複雜性（柯氏複雜度）（kolmogorov complexity）進行遷移學習的案例,其中證明了一些理論界限。特別是,作者使用有條件的柯爾莫戈羅夫複雜性來衡量任務之間的關聯度,並在貝葉斯框架下的連續遷移學習任務中傳輸"正確的"信息量。
最近,伊頓等人提出了一種新的基於圖形的知識轉移方法,其中源任務之間的關係是通過將學習源模型集嵌入到圖形中,使用可轉移性作爲度量指標來建模的。通過將問題映射到圖形,然後學習此圖上的函數,該函數自動確定要傳輸到新學習任務的參數,從而繼續遷移到新任務。
當源域數據和任務導致目標域中學習性能降低時,就會發生負遷移。儘管如何避免負面轉移是一個非常重要的問題,但關於這個主題的研究工作很少。Rosenstein等人[70]的經驗表明,如果兩個任務太不同,那麼暴力轉移可能會損害目標任務的性能。一些作品已被利用來分析任務和任務聚類技術之間的關聯性,例如 [71]、[72],這可能有助於就如何自動避免負轉移提供指導。Bakker 和 Heskes [72] 採用了貝葉斯方法,其中一些模型參數對所有任務共享,而其他模型參數通過從數據中學習的聯合先前分發更鬆散地連接。因此,數據基於任務參數進行聚類,其中同一羣集中的任務應該彼此相關。Argyriou等人[73]考慮了學習任務可以分爲幾組的情況。每個組內的任務通過共享低維表示來相關,該表示在不同的組之間有所不同。因此,團隊中的任務可以發現更容易遷移有用的知識。

7遷移學習的應用

最近,傳輸學習技術已成功應用於許多實際應用。Raina等人[74]和Dai等人[36],[28]建議分別使用轉移學習技術來學習跨領域的文本數據。Blitzer等人建議使用SCL來解決NLP問題。在[8]中,爲解決情緒分類問題,提出了SCL的擴展建議。Wu和Dietterich[53]建議同時使用不足的目標域數據和大量低質量的源域數據來解決圖像分類問題。Arnold等人[58]建議採用轉導遷移學習方法解決名稱實體識別問題。在 [75]、[76]、[77]、[78]、[79]中,提出了遷移學習技術,以從WiFi本地化模型中提取跨時間段、空間和移動設備的知識,爲了有助於其他地點的WiFi定位任務。卓等人[80]研究瞭如何在自動化規劃中遷移領域知識,學習跨領域的關係行爲模型。
在[81]中,Raykar等人提出了一種新的貝葉斯多實例學習算法,該算法可以自動識別相關特徵子集,並使用歸納遷移進行學習多種、但是概念上相關的分類器,用於計算機輔助設計(CAD)。在[82]中,Ling等人提出了一種信息理論方法,用於遷移學習,以解決將網頁從英文翻譯成中文的跨語言分類問題。當有大量標有標記的英文文本數據而只有少量貼有中文文本文檔時,這種方法解決了這個問題。通過設計合適的映射函數作爲橋樑,可以實現跨兩個特徵空間的遷移學習。
到目前爲止,至少有兩場基於遷移學習的國際比賽,提供了一些急需的公共數據。在 ECML/PKDD-2006 發現挑戰中,8 的任務是處理跨相關學習任務的個性化垃圾郵件篩選和概括。爲了培訓垃圾郵件過濾系統,我們需要從一組帶有相應標籤的用戶收集大量電子郵件:垃圾郵件或非垃圾郵件,並根據這些數據訓練分類器。對於新的電子郵件用戶,我們可能希望爲用戶調整學習的模型。挑戰在於第一組用戶和新用戶的電子郵件分發情況不同。因此,這個問題可以模擬爲一個歸納傳輸學習問題,其目的是使舊的垃圾郵件過濾模型適應訓練數據少、培訓時間少的新情況。
通過ICDM-2007競賽提供了第二組數據集，其中任務是使用不同時間段獲得的WiFi信號數據估計WiFi客戶端的室內位置[83]。由於WiFi信號強度值可能是時間、空間和設備的函數，因此不同時間段內WiFi數據的分佈可能會非常不同。因此，遷移學習必須設計爲減少數據重新標記的工作量。
用於傳輸學習的數據集。到目前爲止,已經發布了幾組數據集用於轉移學習研究。我們分別表示文本挖掘數據集、電子郵件垃圾郵件過濾數據集、跨時間段數據集的 WiFi 本地化以及文本、電子郵件、WiFi 和 Sen 的"情緒"分類數據集。

文本。三個數據集,20個新聞組,SRAA和路透社-21578,9已經預先處理爲轉移學習設置由一些研究人員。這些數據集中的數據被分類爲層次結構。來自同一父類別下不同子類別的數據被視爲來自不同但相關的域。任務是預測父類別的標籤。
電子郵件。此數據集由 2006 年 ECML/PKDD 發現挑戰提供。
WiFi。此數據集由 ICDM-2007 競賽提供。在兩個不同的時間段內，這些數據在145:5 37:5m2左右的建築物內收集，用於本地化。
Sen. 此數據集首次在 [8]11 中使用,此數據集包含從四個產品類型(域)Amazon.com下載的產品評論:廚房、書籍、DVD 和電子。每個域有數千條評論,但具體數量因域而異。評論包含星級(1-5 星)。

經驗評估。爲了說明與傳統學習方法相比,轉移學習方法能帶來多大的好處,研究人員使用了一些公共數據集。我們顯示了表 5 中一些已發表的轉讓學習論文的列表。在[6],[84],[49]中,作者使用20個新聞組數據12作爲評估數據集之一。由於不同研究者對算法的預處理步驟存在差異,很難直接比較所提出的方法。因此,我們分別用20-News組1、20-News組2和20-News組3來表示它們,並在表中顯示建議的轉移學習方法和非轉移學習方法之間的比較結果。
在20個Newsgroups1數據上,Dai等人[6]展示了標準SVM與建議的TrAdaBoost算法之間的比較實驗。在 20 Newsgroups2 上,Shi 等人 [84] 應用了主動學習算法,使用 TrAdaBoost 和標準 SVM 選擇轉移學習的重要實例 (AcTraK)。Gao等人[49]在20個新聞組3上評估了他們提出的本地加權集合學習算法pLWE和LWE,與SVM和邏輯迴歸(LR)相比。此外,在表中,我們還顯示了 [8] 中報告的情緒分類數據集的比較結果。在此數據集中,SGD 表示具有 Huber 損耗的隨機梯度級算法,SCL 表示結構對應學習算法學習的新表示法的線性預測器,SCL-MI 是 SCL 的擴展,通過應用相互用於選擇 SCL 算法的透視要素的信息。
最後,在 WiFi 本地化數據集上,我們顯示了在 [67] 中報告的比較結果,其中基線是一個規範化的最小平方迴歸模型 (RLSR),這是一個標準迴歸模型,KPCA 表示將 RLSR 應用於新的內核原理組件分析所學數據的表示形式。比較的傳輸學習方法包括KMM和建議的算法TCA。有關實驗結果的更多詳細信息,讀者可以參考表中的參考文獻。從這些比較結果中,我們可以發現,與非轉移學習方法相比,爲實際應用設計得當的轉移學習方法確實可以顯著提高性能。
用於轉移學習的工具箱。 加州大學伯克利分校的研究人員提供了用於傳輸學習的MATLAB工具包。而且，它提供了一個標準的用於開發和測試傳輸學習新算法的平臺。

7.1遷移學習的其他應用

傳輸學習在連續機器學習中也有許多應用。例如,Kuhlmann 和 Stone [85] 提出了一種基於圖形的方法來識別以前遇到的遊戲,並應用此技術自動繪製值函數傳輸的域映射,並加快對以前變體的強化學習玩遊戲。翻譯學習中提出了一種在完全不同的特徵空間之間傳輸的新方法,通過學習映射函數來橋接兩個完全不同的域(圖像和文本)中的特徵[86]。最後,Li等人[87],[88]將遷移學習應用於協同過濾問題,以解決冷啓動和稀疏問題。在[87]中,Li等人從潛在的用戶和項目羣集變量的角度學習了一個共享評級模式混合模型,稱爲評級矩陣生成模型(RMGM)。RMGM 通過將每個評級矩陣中的用戶和項目映射到共享的潛在用戶和項目空間來橋接來自不同域的多個評級矩陣,以便傳輸有用的知識。在[88]中,他們在輔助評級矩陣中對用戶和項目應用了共聚類算法。然後,他們構建了一個稱爲代碼手冊的羣集級評級矩陣。通過假設目標評級矩陣(在電影中)與輔助矩陣(在書籍上)相關,可以通過擴展代碼手冊、完成知識轉移過程來重建目標域。

8結論

在本綜述中,我們回顧了遷移學習的幾種當前趨勢。遷移學習分爲三種不同的設置:推導遷移學習、轉導遷移學習和非監督轉移學習。前面的大多數作品都集中在前兩個分類上。無監督遷移學習將來可能會吸引越來越多的關注。
此外,每種方法的遷移學習可以基於"遷移什麼"在學習分爲四個分類。它們分別包括實例轉移方法、特徵表示遷移方法、參數遷移方法和關係知識遷移方法。前三個上下文對數據有一個 $i.i.d$ . 假設,而最後一個上下文處理關係數據的遷移學習。這些方法大多假定所選源域與目標域相關。
今後需要解決若干重要的研究問題。首先,如何避免負遷移是一個懸而未決的問題。如第 6 節所述,許多建議的遷移學習算法假定源域和目標域在某種意義上是相互關聯的。但是,如果假設不成立,則可能發生負轉移,這可能導致遷移學習的表現比根本不轉移差。因此,如何確保不發生負遷移是遷移學習中的一個關鍵問題。爲了避免負轉移學習,我們需要首先研究源域或任務與目標域或任務之間的可遷移性。然後,根據適當的可遷移性措施,我們可以選擇相關的源域或任務,以提取知識以學習目標任務。要定義域和任務之間的可遷移性,我們還需要定義測量域或任務之間的相似性的標準。根據距離度量,我們可以對域或任務進行分組,這可能有助於測量可轉移性。一個相關的問題是,當整個域不能用於傳輸學習時,我們是否仍然可以轉移部分域,以便在目標域中進行有用的學習。
此外,到目前爲止,大多數現有的遷移學習算法都側重於改進源域和目標域或任務之間不同分佈的通用化。在此過程中,他們假定源域和目標域之間的特徵空間相同。但是,在許多應用程序中,我們可能希望跨具有不同特徵空間的域或任務遷移知識,並從多個此類源域遷移知識。我們將這種類型的遷移學習稱爲異構遷移學習。
最後,到目前爲止,遷移學習技術已主要應用於種類有限的小規模應用,如基於傳感器網絡的本地化、文本分類和圖像分類問題。將來,遷移學習技術將廣泛用於解決其他具有挑戰性的應用,如視頻分類、社交網絡分析和邏輯推理。

致謝

作者感謝香港CERG項目621307的支持和NEC中國實驗室的贈款。

參考：

1.莊福振,羅平,何清,史忠植.遷移學習研究進展.軟件學報,2015,26(1):26-39. http://www.jos.org.cn/1000-9825/4631.htm
2. 論文原文（沒想到還有彩色版的）http://citeseer.ist.psu.edu/viewdoc/download?doi=10.1.1.147.9185&rep=rep1&type=pdf
3. https://blog.csdn.net/magic_leg/article/details/73957331

《A Survey on Transfer Learning》遷移學習研究綜述翻譯

遷移學習研究綜述

1 引言