JDA（joint distribution adaptation)/2013

文章目錄

Abstract

在domain adaptation應用在CV領域時，目前大多先驗（prior）方法都沒有同時減少域之間邊緣分佈和條件分佈的difference。本文提出JDA，通過principled 降維操作，聯合地（jointly）適應marginal distribution和conditional distribution，並且構建新的特徵表達方法。實驗證明JDA在4類cross-domain圖像分類問題上效果優於最新的方法。

1. Introduction

motivation

cv領域，標籤數據常常很稀疏sparse，所以希望通過related source domain的標籤數據訓練得到的分類器在target domain上覆用。

cross- domain problem

source和target數據採樣自不同的（邊緣）概率分佈，故主要的問題就是reduce the distribution difference between domains。

recent works

找到能降低分佈差異、同時保留input數據的關鍵性質的shared feature representation

[15]Domain adaptation via transfer component analysis（TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue

re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data

分佈差異的度量方法

只基於marginal，或者只基於conditional分佈
同時匹配marginal和conditional
已有部分工作：[26],[18],[23]
問題：需要target有部分labeled data

本文的問題設置

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]

$P(X_S)\not=P(X_T)$
也就是圖中不區分類別（紅色和藍色），兩個圖中的點的分佈不一樣（聚集、離散密集程度不同，分佈方向也不同）
$P(Y_S|X_S)\not=P(Y_T|X_T)$
即給定一堆input數據，標籤的分佈，也就是正負樣本的分佈不同，圖中來看，就是紅色、藍色標籤樣本的分佈不同，分割平面（線）也不同。
target域沒有任何labeled數據

本文的工作

同時adapt邊緣和條件分佈
拓展nonparametric MMD（maximum mean discrepancy)來度量邊緣和條件分佈，並整合到PCA上來構建有效、魯邦的特徵表達。

實驗

數據集（4個）：
digit (USPS, MNIST)
face (PIE)
object (COIL20, Office+Caltech [20])
improvement：+7.57%

2. Related work

根據survey[16]，有兩類transfer learning方法：

(1) instance reweighting：
給source domain的一些標籤數據重新設置權重，然後在target domain中複用。
(2) feature extraction：
找到減小source和target差異的好的特徵表達，同時減小分類迴歸誤差。

本文方法是第二類，可以細分爲以下兩個子類：
- ① property preservation：
  
  通過保留重要的數據特性（如統計特性、幾何結構），在domain之間共享隱空間的factors。
- ② distribution adaptation：
  最小化邊緣分佈，或者條件分佈，或者同時最小化兩個，的距離。未來實現條件分佈的匹配，這些方法通常需要標記的target數據，或者多個source域。

3. Joint distribution adaptation

3.1 問題定義

3.1.1符號定義

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]

domain

域 $\mathcal{D}$ 包含 $m$ 維特徵空間 $\mathcal{X}$ ，和在其上分佈的邊緣概率分佈 $P(\rm{x})$ ，即:

$\mathcal{D}=\{\mathcal{X},P(\mathbf{x})\}$ ，其中 $\bold{x}\in{\mathcal{X}}$
task

Given domain $\mathcal{D}$ , a task $\mathcal{T}$ is composed of a $C$ -cardinality label set $\mathcal{Y}$ ，i.e., $\mathcal{T}=\{\mathcal{Y},f(\bold{x})\}$ , where $y\in{\mathcal{Y}}$ ，and a classifier $f(\bold{x})=Q(y|\bold{x})$ can be interpreted as the conditional probability distribution，即已知數據的分類器也可以看成是一種條件概率分佈。

3.1.2 問題定義

problem 1(joint distribution adaptation)

Given labeled source domain $\mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\}$ ，

unlabeled target domain $\mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\}$ under
the assumptions that $\mathcal{X}_s=\mathcal{X}_t$ ，即數據特徵空間是相同的，

$\mathcal{Y}_s=\mathcal{Y}_t$ ，即標籤空間或者說標籤是類別是相同的，

再就是遷移學習的數據分佈條件，邊緣分佈 $P_s(\bold{x}_s)\not=P_t(\bold{x}_t)$ 不等，

條件概率分佈 $Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t))$ 不等，

我們遷移學習的目標：是學習一種特徵表達，使得①邊緣分佈 $P_s(\bold{x}_s)$ 和 $P_t(\bold{x}_t)$ 的分佈差異（distribution difference）② 條件概率分佈 $Q_s(y_s|\bold{x}_s))$ 和 $Q_t(y_t|\bold{x}_t))$ 的分佈差異最小化。

3.2 proposed approach

本文方法是，通過一個特徵變換（adaptation transformation)矩陣 $T$ ，使得變換後的特徵 $\bold{x}$ ，加上標籤 $y$ 的聯合期望，在兩個域之間是match的，從而我們說這時兩個域是相似的，任務也是相似的，從而可以進行遷移學習。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]

由於target域沒有標籤數據，所以 $Q_t(y_t|\bold{x}_t)$ 不能直接估計。最好的近似是假設條件分佈是相同的，即 $Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s)$ ，這可以通過將在標籤source數據上訓練的分類器 $f$ ，應用在未標籤target數據上實現。爲了獲得更高精度的估計 $Q_t$ ，我們提出了一種迭代的pseudo label refinement僞標籤細化的策略來找到變換 $T$ 和分類器 $f$ 。

3.2.1 feature transformation特徵變換

我們選擇PCA主成分分析（Principle Component Analysis）來進行數據的降維。

輸入數據input data matrix： $\bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n}$ ，注意包含的是所有source和target的數據；
中心矩陣centering matrix of input: $\bold{H} = \bold{I} - \frac{1}{n}\bold{1}$ ，也是針對source和target所有數據一起的和，其中 $n= n_s+n_t$ ， $\bold{I},\bold{1}\in\Bbb{R}^{n\times n}$ 。
協方差矩陣covariance matrix：可以寫成 $\bold{XHX^T}$ 。推導見中心矩陣。

PCA的目標是尋找一個正交變換矩陣（orthogonal transformation matrix） $\bold{A}\in\Bbb{R}^{m\times k}$ ，讓映射後的數據$\in\Bbb{R}^{k \times n} $方差最大，即：

$\max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA})$

協方差是對兩個隨機變量聯合分佈線性相關程度的一種度量。兩個隨機變量越線性相關，協方差越大，完全線性無關，協方差爲0。

協方差：表示兩個變量的線性相關的方向，不可以用於比較3個之間的相關性，因爲隨機變量的取值範圍不同。

$Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y]$

相關係數：表示兩個變量的線性相關程度，越絕對值越接近於1線性相關性越強，爲0表示線性無關，可用於比較。可以看成錶轉化後的協方差，剔除了兩個變量變化程度的影響。

$\rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}$ ，其中Var表示方差

協方差矩陣對角線上的元素表示的是同一維度內的方差，其他位置是維度間的協方差，因爲想要降維後各個維度之間儘量垂直（正交），或者說線性相關性低，即協方差小、接近0；而維度內的數據希望它們儘量分散，即協方差矩陣中對角線表示的各個維度內的方差要大。

特徵值分解eigndecomposition

特徵向量

$A\vec v=\lambda \vec v $，注意其中$ \lambda $是標量，即長度變化，但方向不變，則稱$ \vec v $爲矩陣$ A$的特徵向量。

特徵值

【論文閱讀】JDA（joint distribution adaptation)/2013初稿