核心思想
本文提出一種基於權重生成的小樣本學習算法(AWGIM),這種類型的方法之前在小樣本目標檢測算法中見到過,就是直接用一個生成器生成分類器的權重參數。本文與其他相關算法(LEO)的區別在於在生成分類器權重時,不僅考慮支持集圖像,而且考慮查詢集圖像。爲了實現這一目的,本文引入了互信息(Mutual Information,MI)和注意力機制。整個網絡的流程如下圖所示
首先,介紹一下什麼是互信息MI——給定兩個隨機變量和,互信息表示當其中一個變量已知時,另一個變量不確定性的下降程度。如果兩個變量是完全獨立的,則互信息爲0。互信息通常利用兩個隨機變量分佈的KL散度表示
表示兩個變量的聯合分佈,表示兩個邊緣分佈的乘積。爲了使生成的分類器權重與查詢集圖像和支持集圖像相關,本文將目標函數定義爲最大化權重與查詢集圖像和支持集圖像之間的互信息
根據互信息定義可得
則目標函數可寫爲
但是由於後驗分佈和是未知的,因此需要通過近似方法來計算,目標函數的近似表達爲
其中第一項和第三項表示在給定分類器權重的條件下,最大化查詢集圖像和支持集圖像的標籤預測概率的對數似然,這等價於最小化預測結果於真實值之間的交叉熵損失函數。
查詢集圖像和支持集圖像經過特徵提取網絡後得到對應的特徵向量和,然後分別通過兩個通道進行任務上下文編碼和查詢集樣本編碼,本文通過多頭注意力機制(multi-head attention)實現編碼過程,計算過程如下
式中分別表示查詢,鍵和值;分別表示第個頭(head)對應的權重矩陣。對於本文而言編碼過程包含兩個路徑:上下文路徑和注意力路徑。上下文路徑目的是用多頭自注意力網絡(multi-head self-attention network)學習支持集圖像的表徵
在注意力路徑中,首先用一個新的多頭自注意力網絡對支持集圖像進行編碼
然後再利用一個交互注意力網絡(cross attention network)對查詢集圖像和支持集圖像共同編碼
最後將兩個分支的輸出和級聯後得到,利用生成器輸出分類器權重。本文假設分類器權重滿足帶有對角化協方差矩陣的高斯分佈,因此生成器輸出的是權重分佈的均值和協方差矩陣(對角化矩陣,對角線上的元素爲),計算過程如下
爲了簡化計算對於同一類別的個樣本,採用取平均值的方式計算最終的分類器權重,得到分類器權重後就可以得到查詢集和支持集圖像對應的預測結果了,也就得到了目標函數中的第一項和第三項,但第二項和第四項尚且未知,因此除了生成器之外還有兩個解碼器和,分別用於預測和
實現過程
網絡結構
特徵提取器採用4層卷積層網絡或ResNet網絡,生成器和解碼器和採用兩層多層感知機。
損失函數
目標函數等價於下述損失函數
創新點
- 採用權重生成的方式實現小樣本分類
- 通過互信息MI和注意力機制將查詢集圖像和支持集圖像結合起來,共同生成對應類別的權重
算法評價
本文也可以認爲是基於參數優化的元學習方法,只不過是學習生成分類器權重參數。整篇文章公式很多,但推導比較詳細,整個過程還是非常清晰易懂的。本文中引入的互信息和自注意力機制還有交互注意力機制都是先前文章中沒有采用的方案,值得進一步學習和研究。
如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。