A Primer on Domain Adaptation Theory and Applications

文章目錄

$\hat{w}$

Prior shift 的EM解釋

Pirmin Lemberger, Ivan Panico, A Primer on Domain Adaptation
Theory and Applications, 2019.

概

機器學習分爲訓練和測試倆步驟, 且往往假設訓練樣本的分佈和測試樣本的分佈是一致的, 但是這種情況在實際中並不一定成立. 作者就prior shift, covratie shift, concept shift, subspace mapping 四種情形給出相應的’解決方案".

主要內容

符號說明

$\mathbf{x} \in \mathcal{X} \subset \mathbb{R}^p$ : 數據
$y \in \mathcal{Y}=\{\omega_1,\ldots, \omega_k\}$ : 類別標籤
$S=\{(\mathbf{x}_1,y_1), \ldots(\mathbf{x_m}, y_m)\}$ : 訓練樣本
$h \in \mathcal{H}:\mathcal{X} \rightarrow \mathcal{Y}$ : 擬合函數/分類器
$\hat{y}=h(\mathbf{x})$ :預測
$\ell: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}$ : 損失函數
$R[h]:= \mathbb{E}_{(\mathbf{x}, y) \sim p}[\ell(y, h(\mathbf{x})]$ : risk
$\hat{R}[h]:= \frac{1}{m} \sum_{i=1}^m [\ell(y_i, h(\mathbf{x}_i)]$ : 經驗風險函數
$p_S$ : 訓練數據對應的分佈
$p_T$ : 目標數據對應的分佈
$\hat{p}$ :近似的分佈

Prior shift

$p_S(\mathbf{x}|y)=p_T(\mathbf{x}|y)$ 但 $p_S(y) \not = p_T(y)$ . (如, 訓練的時候，對每一類, 我們往往選擇相同數目的樣本以求保證類別的均衡).

假設根據訓練樣本 $S$ 和算法 $A$ ，我們得到了一個近似後驗分佈 $\hat{p}_S(y|\mathbf{x})$ , 且近似的先驗分佈 $\hat{p}_S(y=\omega_k)=m_k/|S|$ , 並同樣假設 $\hat{p}_S(\mathbf{x}|y)=\hat{p}_T(\mathbf{x}|y)$ , 有
$\tag{9} \hat{p}_T(\omega_k|\mathbf{x})= \frac{\hat{w}(\omega_k)\hat{p}_S(\omega_k|\mathbf{x})}{\sum_{k'=1}^K\hat{w}(\omega_{k'})\hat{p}_S(\omega_{k'}|\mathbf{x})}, \hat{w}(\omega_k):=\frac{\hat{p}_T(\omega_k)}{\hat{p}_S(\omega_k)}.$

倘若我們知道 $\hat{p}_T(\omega_k), k=1,\ldots, K$ , 那麼我們就直接可以利用(9)式來針對目標數據集了, 而這裏的真正的難點在於, 如果不知道, 應該怎麼辦.

假設, 我們的目標數據集的樣本數據爲 $\mathbf{x}_1', \ldots, \mathbf{x}_m'$ , 則我們的目標是求出 $\hat{p}_T(\omega_k|\mathbf{x}')$ , 有
$\tag{10} \hat{p}_T(\omega_k)=\sum_{i=1}^m \hat{p}_T(\omega_k,\mathbf{x}_i')=\frac{1}{m} \sum_{i=1}^m \hat{p}_T(\omega_k|\mathbf{x}_i'),$
其中在最後一個等號部分, 我們假設了 $p(\mathbf{x}_i')=\frac{1}{m}$ , 這個假設並非空穴來風, 我們可以從EM算法角度去理解.

於是, 很自然地, 我們可以利用交替迭代求解
$\tag{11} \hat{p}_T^{(s)}(\omega_k|\mathbf{x}')= \frac{\hat{w}(\omega_k)\hat{p}_S(\omega_k|\mathbf{x}')}{\sum_{k'=1}^K\hat{w}(\omega_{k'})\hat{p}_S(\omega_{k'}|\mathbf{x}')}, \hat{w}(\omega_k):=\frac{\hat{p}_T^{(s)}(\omega_k)}{\hat{p}_S(\omega_k)}. \\ \hat{p}_T^{(s+1)}(\omega_k)=\frac{1}{m} \sum_{i=1}^m \hat{p}_T^{(s)}(\omega_k|\mathbf{x}_i').$

注: 在實際中, 由於各種因素, 這麼做反而畫蛇添足, 起到反效果, 我們可以通過假設檢驗來判斷是否接受.

其趨向於 $\chi^2_{(K-1)}$ 對於足夠多地樣本.

Covariate shift

$p_S(y|\mathbf{x})=p_T(y|\mathbf{x})$ , 但是 $p_S(\mathbf{x})\not = p_T(\mathbf{x})$ .

A covariate shift typically occurs when the cost or the difficulty of picking an observation with given features x strongly impacts the probability of selecting an observation (x, y) thus making it practically impossible to replicate the target feature distribution $p_T(\mathbf{x})$ in the training set.

我們所希望最小化,
$\tag{14,15} R_T[h]:= \mathbb{E}_{p_T}[\ell(h(\mathbf{x})),y)] =\mathbb{E}_{p_S}[w(\mathbf{x})\ell(h(\mathbf{x})),y)].$
在實際中, 若我們有 $w(\mathbf{x})=p_T(\mathbf{x})/p_S(\mathbf{x})$ 或者其一個估計 $\hat{w}(\mathbf{x})$ , 我們最小化經驗風險
$\tag{16} \hat{R}_{S, w} [h]:= \frac{1}{m} \sum_{i=1}^m w(\mathbf{x}_i) \ell(h(\mathbf{x}_i),y_i).$

注: 以下情況不適合用(16):

$p_S(\mathbf{x}_i)=0$ 但是 $p_T(\mathbf{x})_i \not=0$ ;
$p_S, p_T$ 二者差距很大, 使得 $w$ 波動很大.

即 $p_S$ 最好是選取範圍和 $p_T$ 近似, 這些是根據下面的理論結果的到的:

(17)有 $1-\delta$ 的可信度.

$\hat{w}$

顯然, 解決(16)的關鍵在於 $\hat{w}:=\hat{p}_T(\mathbf{x})/\hat{p}_S(\mathbf{x})$ , 有很多的概率密度估計方法(如核密度估計(KDE)), 但是在實際應用中, 這種估計可能會導致不可控的差的結果.

一個策略是直接估計 $\hat{w}$ , 而非分別估計 $\hat{p}_T, \hat{p}_S$ :

期望均方誤差 $\mathbb{E}_{p_S}[(\hat{w}-p_T/p_S)^2]$ (怎麼玩?);
KL散度 $\mathbf{KL}(p_T \| \hat{w}p_S)$ (怎麼玩?);
最大平均差異(maximum mean discrepancy, MMD).

KMM

選擇kernel $K(\mathbf{x}, \mathbf{y})$ , 相當於將 $\mathbf{x}$ 映入一個希爾伯特空間(RKHS), $\mathbf{x} \rightarrow \Phi_{\mathbf{x}}$ , 其內積爲 $\langle \Phi_{\mathbf{x}}, \Phi_{\mathbf{y}} \rangle=K(\mathbf{x}, \mathbf{y})$ . 則MMD定義爲:
$(\mathrm{MMD}[\alpha, \beta])^2:=\|\mathbb{E}_{\mathbf{x} \sim \alpha} [\Phi_{\mathbf{x}}]-\mathbb{E}_{\mathbf{x} \sim \beta} [\Phi_{\mathbf{x}}]\|^2= \|\mathbb{E}_{\mathbf{x} \sim \alpha} [\Phi_{\mathbf{x}}]\|^2-2\langle \mathbb{E}_{\mathbf{x} \sim \alpha} [\Phi_{\mathbf{x}}],\mathbb{E}_{\mathbf{x} \sim \beta} [\Phi_{\mathbf{x}}] \rangle+ \|\mathbb{E}_{\mathbf{x} \sim \beta} [\Phi_{\mathbf{x}}]\|^2.$

則令 $\alpha=\hat{w}\hat{p}_S, \beta=\hat{p}_T$ 則

$\tag{21} (\mathrm{MMD}[\hat{p}_T, \hat{w} \hat{p}_S])^2 = \frac{1}{m_S^2} (\frac{1}{2} \hat{w}^TK \hat{w} - k^T\hat{w}) +\mathrm{const},$
其中 $\hat{w}:=(\hat{w}(\mathbf{x}_1),\ldots, \hat{w}(\mathbf{x}_{m_S}))^T$ , $K_{ij}:=2K(\mathbf{x}_i,\mathbf{x}_k)$ , $k_i:=\frac{2m_S}{m_T} \sum_{j=1}^{m_T} K(\mathbf{x}_i,\mathbf{x}_j)$ .

在實際中, 求解下面的優化問題
$\begin{array}{rc} \min_w & \frac{1}{2} \hat{w}^T K\hat{w} - k^T\hat{w} \\ \mathrm{s.t.} & \hat{w}(\mathbf{x}_i) \in [0,B], \\ & |\frac{1}{m_S} \sum_{i=1}^{m_S} \hat{w}(\mathbf{x}_i) -1| \le \epsilon. \end{array}$
第一個條件爲了保證 $\hat{p}_S,\hat{p}_T$ 之間差距不大, 第二個條件是爲了保證概率的積分爲1的性質.

Concept shift

$p_S(y|\mathbf{x})\not= p_T(y|\mathbf{x})$ ， $p_S(\mathbf{x})=p_T(\mathbf{x})$ . 其往往是在時序系統下, 即分佈 $p$ 與時間有關.

週期性地利用新數據重新訓練模型;
保留部分舊數據, 結合新數據訓練;
加入權重;
引入有效的迭代機制;
檢測偏移, 並作出反應.

Subspace mapping

訓練數據爲 $\mathbf{x}$ , 而目標數據爲 $\mathbf{x}'=T(\mathbf{x})$ , 且 $p_T(T(\mathbf{x}), y) = p_S(\mathbf{x},y)$ ，且 $T$ 是未知的.

我們現在的目標是找到一個有關

Wasserstein distance

以離散情形爲例, 介紹,
$\alpha := \sum_{i=1}^m \alpha_i \delta_{\mathbf{z}_i},$
其中 $\delta_{\mathbf{z}}$ 表示狄拉克函數.
$T \alpha := \sum_{i=1}^m \alpha_i \delta_{T(\mathbf{z}_i)},$
則, 自然地, 我們希望
$\arg \min_{T, T\alpha = \beta} \mathbb{E}_{\mathbf{z} \sim \alpha} [c(\mathbf{z}, T(\mathbf{z}))],$
其中 $c(\cdot, \cdot)$ 是我們給定的一個損失函數, 這類問題被稱爲 Monge 問題.

但是呢, 這種方式找 $T$ 非常困難, 於是有了一種概率替代方案,
$\tag{30} \gamma := \sum_{i,j} \gamma_{ij} \delta_{\mathbf{z}_i,\mathbf{z}_j'}$
爲以離散概率分佈, 則
$\tag{33} \mathbb{E}_{(\mathbf{z},\mathbf{z}') \sim \gamma}[c(\mathbf{z},\mathbf{z}')]:=\sum_{i,j} \gamma_{i,j}c(\mathbf{z}_i,\mathbf{z}_j),$
$\tag{34} \mathcal{L}_c (\alpha, \beta) := \min_{\gamma \in U(\alpha, \beta)} \mathbb{E}_{(\mathbf{z}, \mathbf{z}') \sim \gamma}[c(\mathbf{z}, \mathbf{z}')]$
衡量了從分佈 $\alpha$ 變換到分佈 $\beta$ 的難易程度, 其中
$U(\alpha, \beta):=\{ \gamma: \sum_{j=1}^s \gamma_{ij} =\alpha_i, \sum_{i=1}^r \gamma_{ij} = \beta_j\},$
注意這實際上是一個事實, 因爲 $\alpha, \beta$ 是其聯合分佈 $\gamma$ 的邊緣分佈.

而Wasserstein distance實際上就是
$\tag{35} W_p(\alpha,\beta) := [\mathcal{L}_{d^p} (\alpha, \beta)]^{1/p}, c(\mathbf{z},\mathbf{z}')=[d(\mathbf{z},\mathbf{z}')]^p, p\ge1.$
$d$ 爲一距離.

應用於 subspace mapping

策略一:
$\alpha=\hat{p}_S(\mathbf{x}), \beta=\hat{p}_T(\mathbf{x}')$ , 通過(34)可以找到一個 $\gamma$ , 再利用 $\gamma$ 把訓練數據 $S$ 映射到 $\hat{p}_T$ 分佈上, 再利用新的訓練數據重新訓練模型. (? 如何利用 $\gamma$ 變換呢?)

注:爲了防止 $(\mathbf{x}_i,y_i),(\mathbf{x}_j,y_j), y_i \not =y_j$ 變換到同一個新數據, 需要添加一個懲罰項.

策略二:
$\alpha=\hat{p}_S(\mathbf{x},y), \beta=\hat{p}_T (\mathbf{x}',y')$ , 但是 $y'$ 我們是不知道的, 所以用 $h(\mathbf{x}')$ 代替, 且
$\hat{p}_T^h(\mathbf{x}',y'):= \hat{p}_T(\mathbf{x}') \delta_{y'=h(\mathbf{x}')},$
於是
$\tag{37} h_{OT} := \arg \min_{h \in \mathcal{H}} W_1(\hat{p}_S, \hat{p}_T^h),$

即
$\tag{38} h_{OT} = \arg \min_{h \in \mathcal{H}} \min_{\gamma \in U(\hat{p}_S, \hat{p}_T^h)} \sum_{i,j} \gamma_{ij} d((\mathbf{x}_i,y_i),(\mathbf{x}_j', h(\mathbf{x}_j'))).$
其中
$d((\mathbf{x},y),(\mathbf{x}', y')) := \lambda \rho(\mathbf{x},\mathbf{x}') + \ell(y,y').$
在實際使用中, 視實際情況而定, 加入懲罰項
$\tag{39} h_{OT} = \arg \min_{h \in \mathcal{H}} \min_{\gamma \in U(\hat{p}_S, \hat{p}_T^h)} \big(\sum_{i,j} \gamma_{ij} [ \lambda \rho(\mathbf{x}_i,\mathbf{x}_j') + \ell(y_i,h(\mathbf{x}_j'))] + \epsilon \mathrm{reg}[h] \big).$

Prior shift 的EM解釋

考慮聯合概率 $p_{\theta}(\mathbf{x}_1, \ldots, \mathbf{x}_m; \mathbf{z}_1,\ldots, \mathbf{z}_m)$ , 其中 $\mathbf{z}_i,i=1,\ldots, m$ 爲隱變量, $\mathbf{x}_i, i=1,\ldots,m$ 爲觀測變量，EM算法步驟如下:

E步: $\mathbb{E}_{\mathbf{z}}[\log p_{\theta}(\mathbf{x}_1, \ldots, \mathbf{x}_m; \mathbf{z}_1,\ldots, \mathbf{z}_m)]$ (下面是離散情況)

2. M步:

Prior shift中, $\theta:= [p_T(\omega_1), \ldots, p_T(\omega_K)]^{\mathrm{T}}$ , 隱變量 $\mathbf{z}_i:=(z_{i1},\ldots, z_{iK})$ 爲 $y_i \in \{\omega_1,\ldots, \omega_K\}$ 的one-hot-encodings. 則