Multi-source Distilling Domain Adaptation

在這裏插入圖片描述

1.motivation

本文也是爲了解決multi-source domain adaptation的問題,作者認爲以前的MDA方法存在以下的問題:

  • 爲了學習到domain invariant feature,犧牲了特徵提取器的性能;

  • 認爲多個source domain的貢獻是一致的,忽略了不同source domain和target domain之間的不同的discrepancy,

  • 認爲同一個源域中不同樣本貢獻是一樣的,忽略了不同的樣本和target domain的相似性不一樣

  • 基於adversarial 學習的方式會出現gradient問題,當分類器性能很好的時候(具體可以參見WGAN)

在這裏插入圖片描述

從Figure 1可以看出 S1,S2S_1, S_2相比S3,S4S_3, S_4TT更接近,在S2S_2中不同樣本和TT的相似性也不同,作者用紅線做了區分。

2.Method

在這裏插入圖片描述

如圖2所示,作者提出了multi-source distilling domain adaptation(MDDA) Network. MDDA一共分爲四個階段:

  1. Source Classifier Pre-training. 不用於以往的方法使用共享的backbone來提取多個源域的特徵,作者認爲採用共享的參數會讓特徵提取關注domain invariant feature從而對損失提取discriminative 的特徵的能力。這裏對每一個源域都訓練一個獨立的特徵提取器FiF_i和分類器CiC_i(沒有共享參數)並且採用交叉熵來優化
    Lcls(Fi,Ci)=E(xi,yi)pi1[n=yi]log(σ(Ci(Fi(xi)))) L_{cls}(F_i, C_i) = -E_{(x_i, y_i)\sim p_i}1_{[n=y_i]}log(\sigma(C_i(F_i(x_i))))

  2. Adversarial Discriminative Adaptation. 在pre-train階段後,學習獨立的target encoder將特徵映射到源域空間SiS_i,不同於以往的方法將所有域都映射到同一個domain。這裏將target分別映射到N個source domain,來進行adversarial 的學習,並採用wassertein distance來優化
    LwdD(Di)=ExipiDi(Fi(xi))ExTpT[Di(FiT(xT))]LwdF(FiT)=ExTpTDi(FiT(xT)) L_{wd_D}(D_i) = E_{x_i\sim p_i}D_i(F_i(x_i)) - E_{x^T\sim p_T}[D_i(F_i^T(x_T))]\\ L_{wd_F}(F_i^T)=-E_{x^T\sim p_T}D_i(F_i^T(x_T))
    target encoder儘量讓domain d分辨器DiD_i,通過最小化target的feature和source的feature之間Wasserstein距離。這樣不同source domain的target domain之間的差距就可以通過wassertein distance來量化

  3. Source distilling. 在distilling 不同域的區別後,作者進一步關注同一個domain中不同樣本和target domain之間的差異。也是基於Wassertein distance來選擇和target domain接近的樣本來finetune 分類器。對於每一個樣本xijx_i^j 在第ii個source domain中,計算Wasserstein distance

τij=Di(Fi(xj))1NTk=1NTDi(FiT(xk)) \tau_i^j=||D_i(F_i(x_j))-\frac{1}{N_T}\sum_{k=1}^{N_T}D_i(F_i^T(x_k))||

​ 選擇那些距離比較大的樣本來finetune
Ldistill(Ci)=E(xi^,yi^)pi1[n=yi^]log(σ(Ci(Fi(xi^)))) L_{distill}(C_i)=-E_{(\hat{x_i},\hat{y_i})\sim p_i}\sum1_{[n=\hat{y_i}]}log(\sigma(C_i(F_i(\hat{x_i}))))

  1. Aggregated Target Prediction最後在測試階段,是將target在不同域特徵提取器FiT(xT)F_i^T(x_T) ,在通過finetune的分類器Ci(FiT(xT))C_i^{'}(F_i^T(x_T)) ,最後將所有的結果加權
    Result(xT)=i=1NωiCi(FiT(xT))ωi=eLwdDi22 Result(x_T)=\sum_{i=1}^N\omega_iC_i^{'}(F_i^T(x_T))\\ \omega_i=e^{\frac{-L^2_{wd_{D_i}}}{2}}

Experiment

在這裏插入圖片描述
在這裏插入圖片描述

ablation study

  • visualization

在這裏插入圖片描述

target domain的feature 變得更加的dense(紅色部分)了(並且target和source domain分佈更加接近

  • weighting strategy

在這裏插入圖片描述

  • source distilling for fine-tuning

對比可以看到其實不同域對target影響是遠遠大於 在同一個域裏面不同樣本的影響

在這裏插入圖片描述

通過adversial 訓練之後模型更加關注物體 學習到了domain invariant的特徵
在這裏插入圖片描述
感想:

感覺論文表達的意思還是很直接的,也是target domain的分佈用source domain的加權分佈來逼近,不同的是每一個source domain都訓練一個discriminator和特徵提取器,並且用wassestein loss類訓練,並且作爲後續combine的依據。還加入同一個域不同樣本的finetune. bonus是加入了一些可視化的解釋。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章