論文閱讀筆記《LaSO: Label-Set Operations networks for multi-label few-shot learning》

核心思想

  本文提出一種通過標籤集合操作實現多標籤分類任務的網絡(Label-Set Operations Networks,LaSO)。作者首先爲我們舉了一個形象的例子,如下圖所示
在這裏插入圖片描述
  如果我們希望訓練得到一個用於動物的分類器,但是我們採集到的老虎圖片是帶有籠子的(如圖a),因此在學習過程中可能由於學習到了籠子的特徵,而導致訓練得到的分類器無法識別野生環境中的老虎(如圖c)。作者想到了一個解決方案,就是利用其他包含籠子這個物體的圖片(如圖b),從其中學習到兩幅圖片的公共特徵(即籠子的特徵),然後再從圖a對應的特徵中去除籠子的特徵,那麼就可以得到老虎的特徵,不僅如此,在這個過程中,我們也可以潛移默化地學習到如何去識別籠子,即使籠子並不是我們標記出來的目標物體。總而言之,每幅圖片中都包含多種物體,這些物體的標籤構成了一個標籤集合,利用標籤集合之間的關係(如交集,並集,差集),就可以從圖像中學習到隱式的語義信息,這相當於對數據集進行了數據增強,拓展了特徵空間包含的特徵信息,因此可以用於解決小樣本的多標籤分類問題。
在這裏插入圖片描述
  作者具體是如何實現上述想法的呢?如上圖所示,輸入一對圖像XXYY,以及對應的標籤集合L(X)L(X)L(Y)L(Y),首先經過一個特徵提取網絡分別得到兩幅圖像對應的特徵信息FXF_XFYF_Y;將特徵信息級聯起來,送入標籤合集操作網絡(LaSO),該網絡分成平行的三個部分:交集模塊MintM_{int},並集模塊MuniM_{uni}和差集模塊MsubM_{sub},其中交集模塊用於提取兩幅圖中共有的特徵信息ZintZ_{int},並集模塊用於提取兩幅圖中所有的特徵信息ZuniZ_{uni},差集模塊用於提取XX中有但YY中沒有的特徵信息ZsubZ_{sub};最後將三部分特徵信息以及最初的FXF_XFYF_Y共同輸入到一個分類器網絡中,得到最終的分類結果。

實現過程

網絡結構

  特徵提取網絡採用InceptionV3或者ResNet-34結構,標籤合集操作網絡(LaSO)採用3個或4個全連接塊構成的多層感知機,每個全連接塊包含全連接層、BN層,Leaky-ReLU層和dropout操作,分類器網絡文中並沒有具體介紹,估計也是全連接層+softmax層的常規結構。

損失函數

  本文設計的損失函數包含兩大部分:多標籤分類損失和重構損失。多標籤分類損失的基礎損失函數是二元交叉熵損失函數(Binary Cross-Entropy,BCE)計算方法如下
在這裏插入圖片描述
首先根據最初的特徵信息FXF_XFYF_Y,進行分類預測並計算損失
在這裏插入圖片描述
然後在利用標籤合集操作網絡得到的交集ZintZ_{int}、並集ZuniZ_{uni}、差集ZsubZ_{sub}特徵信息分別計算對應的分類損失,並求和得到標籤合集操作損失
在這裏插入圖片描述
值得注意的是上述兩個損失是解耦的,在更新標籤合集操作網絡的參數時,分類器網絡的參數是固定的。
  重構損失的基礎損失函數是均方差損失函數(Mean Square Error,MSE)。首先保證交集模塊和並集模塊結果的對稱性,也就是說當我們把輸入的兩幅圖片調換順序,得到的交集和並集結果應該和調換順序之前保持一致,而不應該由於順序的改變而發生變化,計算方法如下
在這裏插入圖片描述
其次要減少模塊提取特徵之間的衝突,對於圖像XXYY而言,如果對差集特徵信息ZsubZ_{sub}(圖像XX中有,但YY中沒有)和交集特徵信息ZintZ_{int}(圖像XY中都有的)取並集操作MuniM_{uni},那麼應該還原得到圖像XX對應的特徵FXF_X,反之亦然。因此可得第二部分的重構損失,計算方法如下
在這裏插入圖片描述

訓練策略

  將MS-COCO數據集分成兩部分:看見過的和沒看過的。其中看見過的包含64類物品,沒看過的包含16類物品,首先用64類看見過的圖像數據集對特徵提取網絡進行訓練(使用標準的交叉熵損失函數),然後對LaSO進行聯合訓練。

創新點

  • 提出一種用於多標籤小樣本圖像分類任務的算法,利用標籤集之間的關係,提取潛在的語義信息,形成一種在特徵空間層次上的數據增強,進而解決小樣本的問題
  • 設計了包含多標籤分類損失和重構損失的混合損失函數

算法評價

  本文是首個提出並解決多標籤小樣本分類任務的算法,在小樣本學習任務中,有一類算法是採用數據增強的思路,通過對數據集進行擴充(常規的數據增強、合成圖像或者GAN生成圖像)來解決樣本過少的問題的。本文提出的算法也是沿用了這一思路,不過並非是在圖像這個層次上進行數據擴充,而是在特徵空間這一層次上,就像最開始提到的籠子和老虎的例子,作者並沒有顯式的去生成籠子對應的圖像,而是在特徵空間內,獲取了籠子這一語義概念對應的特徵信息,而這一信息是原本輸入的圖像和標籤中沒有直接涵蓋的,因此起到了數據增強的效果。本文的想法非常的新穎和有趣,但其作用更多的表現在多標籤分類任務上,對於小樣本學習任務的幫助作用有限。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章