核心思想
本文提出一種通過優化基礎類別選擇的方式改善小樣本學習的算法。許多小樣本分類算法都是基於遷移學習的方式,首先在基礎數據集上進行預訓練,然後在新的小樣本數據集上做微調訓練。本文並沒有研究如何改善特徵提取網絡或分類器的結構,而是另闢蹊徑的考慮如何選擇最佳的基礎數據集,更具體地說就是選擇哪些類別的基礎數據集用於預訓練。解決這一問題存在兩大困難:1.如果對基礎數據集中的所有類別組合都進行嘗試,那麼時間複雜度將相當高;2.沒有一種可以直接描述基礎數據集的類別選擇和在新數據集上分類效果之間關係的方法。爲了解決上述困難,作者首先提出了相似比(Similarity Ratio,SR)的概念,並且證明了SR與小樣本分類性能之間的聯繫;然後將基礎類別選擇的問題歸結爲一個次模優化問題(submodular optimization);最後通過貪婪算法在有限時間複雜度條件下尋找到該問題的次優解。
首先作者定義了什麼是相似比SR,如下所示
式中,分子表示新類別中與基礎類別最相似的K個類別的平均相似程度,分母表示新類別與所有基礎類別的平均相似程度,相似程度可用餘弦距離表示。如果想提高SR的值,那麼一方面要保證基礎類別中有一些類別與新類別是高度相關的,非常接近的,以提高分子的值;另一方面要保證基礎類別具備一定的多樣性,也就是說其他無關的類別與新類別之間的差異很大,以降低分母的值。這一要求與小樣本學習對於基礎類別的要求不謀而合,因此SR可以用於表示小樣本分類的性能(SR越大,則小樣本分類效果越好),作者還通過一系列實驗證明這一關係,此處不再詳述,只介紹其中最爲重要的一個結論。作者將與新類別的最高相似性表示如下
和分別表示SR的分子和分母,和分別表示對應的權重,表示殘差項,表示噪聲項,隨着基礎類別數目的增長,和平均值的比率變化如下圖所示
由圖可知,當基礎類別數目比較少時,,也就是說此時和都是越大越好,因爲類別太少,需要儘可能多的相似的類別。而當基礎類別數目逐漸增長時,,也就是說,此時我們希望越小越好,因爲有5個與新類別非常相似的類別就足夠了,其他的類別應該儘量增加多樣性,而不是一味的追求與新類別相似。這再一次印證了作者的觀點:提高SR的值等價於提高小樣本分類的效果,下面的工作就是如何選擇合適的基礎類別來提高SR的值了,作者認爲該問題可以歸結爲一個次模優化問題,並可以利用貪婪算法求解,下面簡單介紹一下什麼是次模函數。
上圖是從其他人的博客裏找到的,他描述了一個利用貪婪算法解決雷達覆蓋範圍的問題。該問題滿足兩個性質:單調性(Monotone)和次模性(Submodularity)。單調性是指如果我在和覆蓋範圍的基礎上,增加一個新的則總的覆蓋範圍的變化肯定是非負的(可能增長,也可能不變,但至少不會變小)。次模性是指相對於在和覆蓋範圍的基礎上,增加一個新的(圖a所示),在的基礎上增加一個新的(圖b所示),帶來的覆蓋範圍增益更小。具體的介紹和證明過程可以參看這篇博客https://blog.csdn.net/a358463121/article/details/85037552。
作者將SR的優化問題歸結爲
式中表示未被選中的基礎類別,表示被選中的基礎類別,表示新類別;表示類別集合中各個類別的質心(特徵值的平均值);是一個超參數,等價於上文提到的,爲了簡化問題,本文假設;也是一個超參數,表示基礎類別的數目;表示相似性度量函數(如餘弦距離);表示最相似的個值之和,計算過程如下
表示將的值按照由大到下排列。
當時上述優化問題就可以看作一個標準的單調非減次模優化問題,因此可以直接使用貪心算法求解,過程如下
其中表示上述的優化目標函數。
當時,上述優化問題可以看作一個非單調的次模優化問題,本文結合隨機貪婪算法(Random Greedy Algorithm)和連續雙貪婪算法(Continuous Double Greedy Algorithm)進行求解,過程如下
具體的求解過程建議參看原文,此處不再詳述。
創新點
- 從基礎類別選擇的角度出發,通過改善基礎訓練集來提高小樣本分類的效果
- 引入SR的概念,並證明其與小樣本分類效果之間的關係
- 利用貪婪算法求解了最大化SR的優化目標函數
算法評價
儘管已經閱讀了數十篇小樣本學習的文章,這篇文章的思路還是讓我覺得眼前一亮。通過優化基礎類別的選擇,來提高基於遷移學習的小樣本分類算法的效果,這一想法算得上獨樹一幟了,雖然在我看來基於遷移學習的小樣本學習算法並不能算是該領域的主流方向。整篇文章的數學性很強,閱讀起來有一定的障礙,如果需要完全理解並推導整個過程,還是要求有很好的數學基礎的。本文的解讀也只是圍繞着作者核心思想來展開,對於證明和推導的細節並沒有介紹,感興趣的讀者可以去閱讀原文。
如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。