Multi-source Distilling Domain Adaptation

原創

xpc_buaa

2020-06-22 09:09

1.motivation

本文也是爲了解決multi-source domain adaptation的問題，作者認爲以前的MDA方法存在以下的問題：

爲了學習到domain invariant feature,犧牲了特徵提取器的性能;
認爲多個source domain的貢獻是一致的，忽略了不同source domain和target domain之間的不同的discrepancy，
認爲同一個源域中不同樣本貢獻是一樣的，忽略了不同的樣本和target domain的相似性不一樣
基於adversarial 學習的方式會出現gradient問題，當分類器性能很好的時候（具體可以參見WGAN)

從Figure 1可以看出 $S_1, S_2$ 相比 $S_3, S_4$ 和 $T$ 更接近，在 $S_2$ 中不同樣本和 $T$ 的相似性也不同，作者用紅線做了區分。

2.Method

如圖2所示，作者提出了multi-source distilling domain adaptation(MDDA) Network. MDDA一共分爲四個階段：

Source Classifier Pre-training. 不用於以往的方法使用共享的backbone來提取多個源域的特徵，作者認爲採用共享的參數會讓特徵提取關注domain invariant feature從而對損失提取discriminative 的特徵的能力。這裏對每一個源域都訓練一個獨立的特徵提取器 $F_i$ 和分類器 $C_i$ （沒有共享參數)並且採用交叉熵來優化
$L_{cls}(F_i, C_i) = -E_{(x_i, y_i)\sim p_i}1_{[n=y_i]}log(\sigma(C_i(F_i(x_i))))$
Adversarial Discriminative Adaptation. 在pre-train階段後，學習獨立的target encoder將特徵映射到源域空間 $S_i$ ,不同於以往的方法將所有域都映射到同一個domain。這裏將target分別映射到N個source domain，來進行adversarial 的學習，並採用wassertein distance來優化
$L_{wd_D}(D_i) = E_{x_i\sim p_i}D_i(F_i(x_i)) - E_{x^T\sim p_T}[D_i(F_i^T(x_T))]\\ L_{wd_F}(F_i^T)=-E_{x^T\sim p_T}D_i(F_i^T(x_T))$
target encoder儘量讓domain d分辨器 $D_i$ ，通過最小化target的feature和source的feature之間Wasserstein距離。這樣不同source domain的target domain之間的差距就可以通過wassertein distance來量化
Source distilling. 在distilling 不同域的區別後，作者進一步關注同一個domain中不同樣本和target domain之間的差異。也是基於Wassertein distance來選擇和target domain接近的樣本來finetune 分類器。對於每一個樣本 $x_i^j$ 在第 $i$ 個source domain中，計算Wasserstein distance

$\tau_i^j=||D_i(F_i(x_j))-\frac{1}{N_T}\sum_{k=1}^{N_T}D_i(F_i^T(x_k))||$

選擇那些距離比較大的樣本來finetune
$L_{distill}(C_i)=-E_{(\hat{x_i},\hat{y_i})\sim p_i}\sum1_{[n=\hat{y_i}]}log(\sigma(C_i(F_i(\hat{x_i}))))$

Aggregated Target Prediction最後在測試階段，是將target在不同域特徵提取器 $F_i^T(x_T)$ ,在通過finetune的分類器 $C_i^{'}(F_i^T(x_T))$ ,最後將所有的結果加權
$Result(x_T)=\sum_{i=1}^N\omega_iC_i^{'}(F_i^T(x_T))\\ \omega_i=e^{\frac{-L^2_{wd_{D_i}}}{2}}$

Experiment

ablation study

visualization

target domain的feature 變得更加的dense(紅色部分）了（並且target和source domain分佈更加接近

weighting strategy

source distilling for fine-tuning

對比可以看到其實不同域對target影響是遠遠大於在同一個域裏面不同樣本的影響

通過adversial 訓練之後模型更加關注物體學習到了domain invariant的特徵

感想：

感覺論文表達的意思還是很直接的，也是target domain的分佈用source domain的加權分佈來逼近，不同的是每一個source domain都訓練一個discriminator和特徵提取器，並且用wassestein loss類訓練，並且作爲後續combine的依據。還加入同一個域不同樣本的finetune. bonus是加入了一些可視化的解釋。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Multi-source Distilling Domain Adaptation

1.motivation

2.Method

Experiment

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

01 穩定性（一）如何應對事故並做好覆盤？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

Multi-Source Domain Adaptation with Mixture of Experts

Deep Cocktail Network

Multi-source Distilling Domain Adaptation

Segmentation Guided Attention Network for Crowd Counting via Curriculum Learning

計算機視覺實習面試整理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結