【論文閱讀】JDA(joint distribution adaptation)/2013初稿

JDA(joint distribution adaptation)/2013

Abstract

在domain adaptation應用在CV領域時,目前大多先驗(prior)方法都沒有同時減少域之間邊緣分佈和條件分佈的difference。本文提出JDA,通過principled 降維操作,聯合地(jointly)適應marginal distribution和conditional distribution,並且構建新的特徵表達方法。實驗證明JDA在4類cross-domain圖像分類問題上效果優於最新的方法。

1. Introduction

motivation

cv領域,標籤數據常常很稀疏sparse,所以希望通過related source domain的標籤數據訓練得到的分類器在target domain上覆用。

cross- domain problem

source和target數據採樣自不同的(邊緣)概率分佈,故主要的問題就是reduce the distribution difference between domains。

recent works

  • 找到能降低分佈差異、同時保留input數據的關鍵性質的shared feature representation

[15]Domain adaptation via transfer component analysis(TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue

  • re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data

分佈差異的度量方法

  • 只基於marginal,或者只基於conditional分佈
  • 同時匹配marginal和conditional
    已有部分工作:[26],[18],[23]
    問題:需要target有部分labeled data

本文的問題設置

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]

  • P(XS)P(XT)P(X_S)\not=P(X_T)
    也就是圖中不區分類別(紅色和藍色),兩個圖中的點的分佈不一樣(聚集、離散密集程度不同,分佈方向也不同)

  • P(YSXS)P(YTXT)P(Y_S|X_S)\not=P(Y_T|X_T)
    即給定一堆input數據,標籤的分佈,也就是正負樣本的分佈不同,圖中來看,就是紅色、藍色標籤樣本的分佈不同,分割平面(線)也不同。

  • target域沒有任何labeled數據

本文的工作

  • 同時adapt邊緣和條件分佈
  • 拓展nonparametric MMD(maximum mean discrepancy)來度量邊緣和條件分佈,並整合到PCA上來構建有效、魯邦的特徵表達。

實驗

  • 數據集(4個):
    digit (USPS, MNIST)
    face (PIE)
    object (COIL20, Office+Caltech [20])
  • improvement:+7.57%

2. Related work

根據survey[16],有兩類transfer learning方法:

  • (1) instance reweighting:
    給source domain的一些標籤數據重新設置權重,然後在target domain中複用。

  • (2) feature extraction:
    找到減小source和target差異的好的特徵表達,同時減小分類迴歸誤差。

    本文方法是第二類,可以細分爲以下兩個子類:

    • ① property preservation:

      通過保留重要的數據特性(如統計特性、幾何結構),在domain之間共享隱空間的factors。

    • ② distribution adaptation:
      最小化邊緣分佈,或者條件分佈,或者同時最小化兩個,的距離。未來實現條件分佈的匹配,這些方法通常需要標記的target數據,或者多個source域。

3. Joint distribution adaptation

3.1 問題定義

3.1.1符號定義

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]

  • domain

    D\mathcal{D} 包含mm維特徵空間X\mathcal{X},和在其上分佈的邊緣概率分佈P(x)P(\rm{x}),即:

    D={X,P(x)}\mathcal{D}=\{\mathcal{X},P(\mathbf{x})\},其中xX\bold{x}\in{\mathcal{X}}

  • task

    Given domain D\mathcal{D}, a task T\mathcal{T} is composed of a CC-cardinality label set Y\mathcal{Y},i.e., T={Y,f(x)}\mathcal{T}=\{\mathcal{Y},f(\bold{x})\}, where yYy\in{\mathcal{Y}},and a classifierf(x)=Q(yx)f(\bold{x})=Q(y|\bold{x})can be interpreted as the conditional probability distribution,即已知數據的分類器也可以看成是一種條件概率分佈。

3.1.2 問題定義

  • problem 1(joint distribution adaptation)

    Given labeled source domain Ds={(x1,y1),...,(xns,yns)}\mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\}

    unlabeled target domainDt={xns+1,...,xns+nt}\mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\} under
    the assumptions thatXs=Xt\mathcal{X}_s=\mathcal{X}_t,即數據特徵空間是相同的,

    Ys=Yt\mathcal{Y}_s=\mathcal{Y}_t,即標籤空間或者說標籤是類別是相同的,

    再就是遷移學習的數據分佈條件,邊緣分佈Ps(xs)Pt(xt)P_s(\bold{x}_s)\not=P_t(\bold{x}_t)不等,

    條件概率分佈Qs(ysxs))Qt(ytxt))Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t))不等,

    我們遷移學習的目標:是學習一種特徵表達,使得①邊緣分佈Ps(xs)P_s(\bold{x}_s)Pt(xt)P_t(\bold{x}_t)的分佈差異(distribution difference)② 條件概率分佈Qs(ysxs))Q_s(y_s|\bold{x}_s))Qt(ytxt))Q_t(y_t|\bold{x}_t))的分佈差異最小化。

3.2 proposed approach

本文方法是,通過一個特徵變換(adaptation transformation)矩陣TT,使得變換後的特徵x\bold{x},加上標籤yy 的聯合期望,在兩個域之間是match的,從而我們說這時兩個域是相似的,任務也是相似的,從而可以進行遷移學習。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]

由於target域沒有標籤數據,所以Qt(ytxt)Q_t(y_t|\bold{x}_t)不能直接估計。最好的近似是假設條件分佈是相同的,即Qt(ytxt)=Qs(ysxs)Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s),這可以通過將在標籤source數據上訓練的分類器ff,應用在未標籤target數據上實現。爲了獲得更高精度的估計QtQ_t,我們提出了一種迭代的pseudo label refinement僞標籤細化的策略來找到變換 TT 和分類器ff

3.2.1 feature transformation特徵變換

我們選擇PCA主成分分析(Principle Component Analysis)來進行數據的降維。

  • 輸入數據input data matrix:X=[x1,...,xn]Rm×n\bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n},注意包含的是所有source和target的數據;

  • 中心矩陣centering matrix of input: H=I1n1\bold{H} = \bold{I} - \frac{1}{n}\bold{1},也是針對source和target所有數據一起的和,其中n=ns+ntn= n_s+n_tI,1Rn×n\bold{I},\bold{1}\in\Bbb{R}^{n\times n}

  • 協方差矩陣covariance matrix:可以寫成XHXT\bold{XHX^T}。推導見中心矩陣

PCA的目標是尋找一個正交變換矩陣(orthogonal transformation matrix)ARm×k\bold{A}\in\Bbb{R}^{m\times k},讓映射後的數據$\in\Bbb{R}^{k \times n} $方差最大,即:

maxATA=Itr(ATXHXTA)\max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA})

協方差是對兩個隨機變量聯合分佈線性相關程度的一種度量。兩個隨機變量越線性相關,協方差越大,完全線性無關,協方差爲0。

  • 協方差:表示兩個變量的線性相關的方向,不可以用於比較3個之間的相關性,因爲隨機變量的取值範圍不同。

    Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]2E[X]E[Y]+E[X]E[Y]=E[XY]E[X]E[Y]Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y]

  • 相關係數:表示兩個變量的線性相關程度,越絕對值越接近於1線性相關性越強,爲0表示線性無關,可用於比較。可以看成錶轉化後的協方差,剔除了兩個變量變化程度的影響。

    ρ=Cov(X,Y)Var[X]Var[Y]\rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}},其中Var表示方差

協方差矩陣對角線上的元素表示的是同一維度內的方差,其他位置是維度間的協方差,因爲想要降維後各個維度之間儘量垂直(正交),或者說線性相關性低,即協方差小、接近0;而維度內的數據希望它們儘量分散,即協方差矩陣中對角線表示的各個維度內的方差要大

特徵值分解eigndecomposition

  • 特徵向量

    $A\vec v=\lambda \vec v ,注意其中\lambda是標量,即長度變化,但方向不變,則稱\vec v爲矩陣A$的特徵向量。

  • 特徵值

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章