Motivation
本文出發點還是榮multi-source domain adaptation出發,如何利用多個source domain的知識,來更好的預測target domain. 還是從target的分佈可以用source distribution的加權來接近。
作者對domain之間的relationship建模提出了mixture-of-expert(MoE)的方法,
- 將不同的source domain和target domain投影到不同的子空間,而不是將所有的domain投影到同一個子空間。
- target的後驗概率,通過不同source域的分類器加權組合,這裏權重反應了target樣本到每一個source domain的距離
- 定義了point-to-set 的metric,並作爲loss訓練,採用了meta-training的方式
Method
如圖所示模型主要包括四個部分 1)encoder 用來提取特徵 2)classifier, domain-specific 分類器,每一個source的都有一個3)metric用來將多個domain-specific的target的結果融合 4)adversary用來align不同域之間的距離
Metric
是由第i個source分類器產生的後驗概率(給定提取的特徵x,判斷屬於類別y的概率),作者首先定義了point-to-set的馬氏距離,即樣本x到集合S
其中是S的特徵的平均值,是S的特徵的協方差矩陣的逆矩陣
其中反應了對第i個分類器的可靠程度
而是基於point-to-set馬氏距離設計的score函數,而是其歸一化後的結果。作者針對不同的任務設計了不同的socre函數
- binary classification
考慮到在二分類任務中, 的feature(encoding)的平均值往往接近於decision boundary,樣本到boundary越近,往往置信度越低,因此直接用d(x,s)不合適。
上述的函數對outlier的點e(x,S)的值低,
- Sequence tagging
Training
借鑑了few-shot裏面的學習方法,從K個source domain裏面任意選一個作爲meta-target,其餘作爲meta-source,這樣得到K組(meta-source,meta-target)的訓練pair,
loss一共有兩個部分:MoE objective和multi-task
對每個pair裏面的meta-target中的每個樣本計算moe loss,meta-target的分類是通過meta-source加權得到,moe就是約束這樣的關係,讓meta-source中同樣的標籤的分類變大
Muti-task是分類的交叉熵損失
- Adversary-augmented MoE
使用MMD來最小化target domain和source domain的邊緣分佈
整體的訓練算法如圖