論文題目: 《Unsupervised Domain Adaptation with Residual Transfer Networks》
論文信息: NIPS2016, Mingsheng Long, Han Zhu, Jianmin Wang, Tsinghua University
論文:
http://ise.thss.tsinghua.edu.cn/~mlong/doc/residual-transfer-network-nips16.pdf
作者主頁:
http://ise.thss.tsinghua.edu.cn/~mlong/
代碼鏈接: https://github.com/zhuhan1236/transfer-caffe
1. 論文解決的問題
深度學習的訓練需要大量已標註的數據,但是手工標註大量數據費時費力,人們就想,某一任務已經標註好了大量數據,這些標註好了的數據能否利用到另一個任務上面,由此形成了遷移學習理論,也即這篇論文中的域自適應。
源任務稱爲源域,目標任務稱爲目標域,源域數據有標註,目標域數據沒有標註或有少量標註,因此,源域數據的數據分佈與目標域的數據分佈是不相等的。將源域數據分佈往目標域數據分佈上靠,稱爲域自適應。
這篇文章解決了,1) 特徵自適應的問題,
2) 源任務與目標任務的類別自適應問題。
2.論文的想法
這篇論文假設源任務與目標任務的類別數不相等,設計了一個端到端的深度卷積神經網絡,能夠將源任務類別估計遷移到目標任務類別估計。
論文將這個網絡稱爲殘差遷移網絡(Residual Transfer Network,RTN)。
殘差遷移網絡主要包括兩方面,1)特徵的自適應(Feature Adaptation)
2)類別的自適應(Classifier Adaptation)
目標域的損失函數: (1)
L(×,×) 爲交叉熵損失函數(cross-entropy loss function).
論文的總體框架:
1)特徵的自適應(Feature Adaptation)
對於特徵的自適應。這裏先講一篇只用特徵自適應來將源域遷移到目標域的論文:《Learning Transferable Features with Deep Adaptation Networks》
該論文思想框架:
這個網絡稱爲深度自適應網絡(Deep Adaptive Network,DAN)。
前面爲共享網絡層,frozen 爲學習率爲0的卷積層,fine-tune爲學習率較低的卷積層,最後三層的learn表示學習率較大。
MK-MMD爲多核的最大均值化差異(Multi-Kernel Maximum Mean Discrepancies),也就是在網絡層的最後三層添加三個損失層,三個損失層計算的是源任務到目標任務的特徵分佈差異,使得源任務往目標任務的分類上遷移。
只添加了MMD Loss的網絡結構:
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
殘差遷移網絡中,前面爲共享網絡層,fcb爲卷積層,用來降維,fcc爲分類層。
這篇論文使用到的MMD loss與上面那篇文章裏論述的方法類似,即在網絡層中添加最大均值化差異損失。通過減小域間的最大化均值差異,來實現特徵自適應。
不同在於,DAN 中需要自適應的多個特徵層直接使用多個MMD 懲罰,而在RTN中,需要自適應的多個特徵層,先融合特徵再對特徵進行自適應即再使用MMD。
MMD域間損失函數: (2)
2)類別的自適應( Classifier Adaptation)
在RTN中,fc1,fc2爲殘差層。
利用兩層residual項,減小域間的類別差異。
由: 可推出: 對應項推斷。
類別自適應損失函數: (3)
H(×)可看做目標域對於類別的預測損失,其爲熵損失函數。
3)殘差遷移網絡(Residual Transfer Network)
殘差遷移網絡,通過整合對深度特徵的學習,特徵的自適應,類別的自適應,學習了遷移特徵和自適應類別,形成一個端到端的網絡。
整個殘差遷移網絡的損失函數:
其爲上面(1),(2),(3)公式的總和。源域的損失+目標域的類別損失+域間的損失。
3.最後部分爲論文的實驗結果