1.motivation
本文也是爲了解決multi-source domain adaptation的問題,作者認爲以前的MDA方法存在以下的問題:
-
爲了學習到domain invariant feature,犧牲了特徵提取器的性能;
-
認爲多個source domain的貢獻是一致的,忽略了不同source domain和target domain之間的不同的discrepancy,
-
認爲同一個源域中不同樣本貢獻是一樣的,忽略了不同的樣本和target domain的相似性不一樣
-
基於adversarial 學習的方式會出現gradient問題,當分類器性能很好的時候(具體可以參見WGAN)
從Figure 1可以看出 相比和更接近,在中不同樣本和的相似性也不同,作者用紅線做了區分。
2.Method
如圖2所示,作者提出了multi-source distilling domain adaptation(MDDA) Network. MDDA一共分爲四個階段:
-
Source Classifier Pre-training. 不用於以往的方法使用共享的backbone來提取多個源域的特徵,作者認爲採用共享的參數會讓特徵提取關注domain invariant feature從而對損失提取discriminative 的特徵的能力。這裏對每一個源域都訓練一個獨立的特徵提取器和分類器(沒有共享參數)並且採用交叉熵來優化
-
Adversarial Discriminative Adaptation. 在pre-train階段後,學習獨立的target encoder將特徵映射到源域空間,不同於以往的方法將所有域都映射到同一個domain。這裏將target分別映射到N個source domain,來進行adversarial 的學習,並採用wassertein distance來優化
target encoder儘量讓domain d分辨器,通過最小化target的feature和source的feature之間Wasserstein距離。這樣不同source domain的target domain之間的差距就可以通過wassertein distance來量化 -
Source distilling. 在distilling 不同域的區別後,作者進一步關注同一個domain中不同樣本和target domain之間的差異。也是基於Wassertein distance來選擇和target domain接近的樣本來finetune 分類器。對於每一個樣本 在第個source domain中,計算Wasserstein distance
選擇那些距離比較大的樣本來finetune
- Aggregated Target Prediction最後在測試階段,是將target在不同域特徵提取器 ,在通過finetune的分類器 ,最後將所有的結果加權
Experiment
ablation study
- visualization
target domain的feature 變得更加的dense(紅色部分)了(並且target和source domain分佈更加接近
- weighting strategy
- source distilling for fine-tuning
對比可以看到其實不同域對target影響是遠遠大於 在同一個域裏面不同樣本的影響
通過adversial 訓練之後模型更加關注物體 學習到了domain invariant的特徵
感想:
感覺論文表達的意思還是很直接的,也是target domain的分佈用source domain的加權分佈來逼近,不同的是每一個source domain都訓練一個discriminator和特徵提取器,並且用wassestein loss類訓練,並且作爲後續combine的依據。還加入同一個域不同樣本的finetune. bonus是加入了一些可視化的解釋。