JDA(joint distribution adaptation)/2013
文章目錄
Abstract
在domain adaptation應用在CV領域時,目前大多先驗(prior)方法都沒有同時減少域之間邊緣分佈和條件分佈的difference。本文提出JDA,通過principled 降維操作,聯合地(jointly)適應marginal distribution和conditional distribution,並且構建新的特徵表達方法。實驗證明JDA在4類cross-domain圖像分類問題上效果優於最新的方法。
1. Introduction
motivation
cv領域,標籤數據常常很稀疏sparse,所以希望通過related source domain的標籤數據訓練得到的分類器在target domain上覆用。
cross- domain problem
source和target數據採樣自不同的(邊緣)概率分佈,故主要的問題就是reduce the distribution difference between domains。
recent works
- 找到能降低分佈差異、同時保留input數據的關鍵性質的shared feature representation
[15]Domain adaptation via transfer component analysis(TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue
- re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data
分佈差異的度量方法
- 只基於marginal,或者只基於conditional分佈
- 同時匹配marginal和conditional
已有部分工作:[26],[18],[23]
問題:需要target有部分labeled data
本文的問題設置
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]
-
也就是圖中不區分類別(紅色和藍色),兩個圖中的點的分佈不一樣(聚集、離散密集程度不同,分佈方向也不同) -
即給定一堆input數據,標籤的分佈,也就是正負樣本的分佈不同,圖中來看,就是紅色、藍色標籤樣本的分佈不同,分割平面(線)也不同。 -
target域沒有任何labeled數據
本文的工作
- 同時adapt邊緣和條件分佈
- 拓展nonparametric MMD(maximum mean discrepancy)來度量邊緣和條件分佈,並整合到PCA上來構建有效、魯邦的特徵表達。
實驗
- 數據集(4個):
digit (USPS, MNIST)
face (PIE)
object (COIL20, Office+Caltech [20]) - improvement:+7.57%
2. Related work
根據survey[16],有兩類transfer learning方法:
-
(1) instance reweighting:
給source domain的一些標籤數據重新設置權重,然後在target domain中複用。 -
(2) feature extraction:
找到減小source和target差異的好的特徵表達,同時減小分類迴歸誤差。本文方法是第二類,可以細分爲以下兩個子類:
-
① property preservation:
通過保留重要的數據特性(如統計特性、幾何結構),在domain之間共享隱空間的factors。
-
② distribution adaptation:
最小化邊緣分佈,或者條件分佈,或者同時最小化兩個,的距離。未來實現條件分佈的匹配,這些方法通常需要標記的target數據,或者多個source域。
-
3. Joint distribution adaptation
3.1 問題定義
3.1.1符號定義
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]
-
domain
域 包含維特徵空間,和在其上分佈的邊緣概率分佈,即:
,其中
-
task
Given domain , a task is composed of a -cardinality label set ,i.e., , where ,and a classifiercan be interpreted as the conditional probability distribution,即已知數據的分類器也可以看成是一種條件概率分佈。
3.1.2 問題定義
-
problem 1(joint distribution adaptation)
Given labeled source domain ,
unlabeled target domain under
the assumptions that,即數據特徵空間是相同的,,即標籤空間或者說標籤是類別是相同的,
再就是遷移學習的數據分佈條件,邊緣分佈不等,
條件概率分佈不等,
我們遷移學習的目標:是學習一種特徵表達,使得①邊緣分佈 和的分佈差異(distribution difference)② 條件概率分佈和的分佈差異最小化。
3.2 proposed approach
本文方法是,通過一個特徵變換(adaptation transformation)矩陣,使得變換後的特徵,加上標籤 的聯合期望,在兩個域之間是match的,從而我們說這時兩個域是相似的,任務也是相似的,從而可以進行遷移學習。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]
由於target域沒有標籤數據,所以不能直接估計。最好的近似是假設條件分佈是相同的,即,這可以通過將在標籤source數據上訓練的分類器,應用在未標籤target數據上實現。爲了獲得更高精度的估計,我們提出了一種迭代的pseudo label refinement僞標籤細化的策略來找到變換 和分類器。
3.2.1 feature transformation特徵變換
我們選擇PCA主成分分析(Principle Component Analysis)來進行數據的降維。
-
輸入數據input data matrix:,注意包含的是所有source和target的數據;
-
中心矩陣centering matrix of input: ,也是針對source和target所有數據一起的和,其中,。
-
協方差矩陣covariance matrix:可以寫成。推導見中心矩陣。
PCA的目標是尋找一個正交變換矩陣(orthogonal transformation matrix),讓映射後的數據$\in\Bbb{R}^{k \times n} $方差最大,即:
協方差是對兩個隨機變量聯合分佈線性相關程度的一種度量。兩個隨機變量越線性相關,協方差越大,完全線性無關,協方差爲0。
協方差:表示兩個變量的線性相關的方向,不可以用於比較3個之間的相關性,因爲隨機變量的取值範圍不同。
相關係數:表示兩個變量的線性相關程度,越絕對值越接近於1線性相關性越強,爲0表示線性無關,可用於比較。可以看成錶轉化後的協方差,剔除了兩個變量變化程度的影響。
,其中Var表示方差
協方差矩陣對角線上的元素表示的是同一維度內的方差,其他位置是維度間的協方差,因爲想要降維後各個維度之間儘量垂直(正交),或者說線性相關性低,即協方差小、接近0;而維度內的數據希望它們儘量分散,即協方差矩陣中對角線表示的各個維度內的方差要大。
特徵向量
$A\vec v=\lambda \vec v \lambda\vec vA$的特徵向量。
特徵值