論文閱讀筆記《Attentive Weights Generation for Few Shot Learning via Information Maximization》

原創

2020-07-02 15:26

核心思想

本文提出一種基於權重生成的小樣本學習算法（AWGIM），這種類型的方法之前在小樣本目標檢測算法中見到過，就是直接用一個生成器生成分類器的權重參數。本文與其他相關算法（LEO）的區別在於在生成分類器權重時，不僅考慮支持集圖像，而且考慮查詢集圖像。爲了實現這一目的，本文引入了互信息（Mutual Information，MI）和注意力機制。整個網絡的流程如下圖所示

首先，介紹一下什麼是互信息MI——給定兩個隨機變量 $x$ 和 $y$ ，互信息 $I(x;y)$ 表示當其中一個變量已知時，另一個變量不確定性的下降程度。如果兩個變量是完全獨立的，則互信息爲0。互信息通常利用兩個隨機變量分佈的KL散度表示

$p(x,y)$ 表示兩個變量的聯合分佈， $p(x)\otimes p(y)$ 表示兩個邊緣分佈的乘積。爲了使生成的分類器權重與查詢集圖像和支持集圖像相關，本文將目標函數定義爲最大化權重 $w_i$ 與查詢集圖像 $\hat{x}$ 和支持集圖像 $x_{c_i}$ 之間的互信息

根據互信息定義可得

則目標函數可寫爲

但是由於後驗分佈 $p(\hat{y}|\hat{x},w_i)$ 和 $p(\hat{x}|w_i)$ 是未知的，因此需要通過近似方法來計算，目標函數的近似表達爲

其中第一項和第三項表示在給定分類器權重的條件下，最大化查詢集圖像和支持集圖像的標籤預測概率的對數似然，這等價於最小化預測結果於真實值之間的交叉熵損失函數。
查詢集圖像和支持集圖像經過特徵提取網絡後得到對應的特徵向量 $\hat{x}$ 和 $x$ ，然後分別通過兩個通道進行任務上下文編碼和查詢集樣本編碼，本文通過多頭注意力機制（multi-head attention）實現編碼過程，計算過程如下

式中 $Q,K,V$ 分別表示查詢 $query$ ，鍵 $key$ 和值 $value$ ； $W_Q^j,W_K^j,W_V^j$ 分別表示第 $j$ 個頭(head)對應的權重矩陣。對於本文而言編碼過程包含兩個路徑：上下文路徑和注意力路徑。上下文路徑目的是用多頭自注意力網絡（multi-head self-attention network） $f_{\theta_{cp}^{sa}}$ 學習支持集圖像的表徵

在注意力路徑中，首先用一個新的多頭自注意力網絡對支持集圖像進行編碼

然後再利用一個交互注意力網絡（cross attention network） $f_{\theta_{ca}^{ap}}$ 對查詢集圖像和支持集圖像共同編碼

最後將兩個分支的輸出 $x^{cp}$ 和 $\hat{x}^{ap}$ 級聯後得到 $x^{cp \oplus ap}$ ，利用生成器 $g$ 輸出分類器權重 $w$ 。本文假設分類器權重 $w$ 滿足帶有對角化協方差矩陣的高斯分佈，因此生成器輸出的是權重 $w$ 分佈的均值 $\mu_{w_i}$ 和協方差矩陣 $\sum_{w_i}$ （對角化矩陣，對角線上的元素爲 $\sigma_{w_i}$ ），計算過程如下

爲了簡化計算對於同一類別的 $K$ 個樣本，採用取平均值的方式計算最終的分類器權重 $w^{final}$ ，得到分類器權重後就可以得到查詢集和支持集圖像對應的預測結果了，也就得到了目標函數中的第一項和第三項，但第二項和第四項尚且未知，因此除了生成器 $g$ 之外還有兩個解碼器 $r_1$ 和 $r_2$ ，分別用於預測 $p_{\theta}(\hat{x}|w_i)$ 和 $p_{\theta}(x_{c_i}|w_i)$