核心思想
本文在度量學習的基礎上結合了語義信息實現小樣本學習任務。作者的核心觀點是在小樣本條件下,有些時候圖像特徵信息具有較高的區分度,而有些時候語義信息具有較高的區分度,爲了提高分類的準確度,作者提出一種自適應模態混合機制(Adaptive Modality Mixture Mechanism ,AM3)將兩種信息結合,並利用一個網絡輸出二者之間的比例權重,利用混合的特徵信息極大的改善了原有算法的分類效果。整個網絡的流程如下圖所示
如上圖所示,訓練圖片經過一個特徵提取網絡得到對應的圖像特徵向量,然後語義標籤信息首先經過一個詞嵌入模型(提前在一個大規模文本語料庫中經無監督訓練得到的)得到對應的語義特徵向量,然後經過一個維度變換網絡將其轉化爲可以用於融合 的特徵,融合方式如下
式中是一個分配權重係數,通過以下方式計算得到
式中是一個自適應混合網絡。將混合後的特徵’作爲原型,採用Prototypical Network的方式進行分類預測
表示網絡參數,包含三個部分。
實現過程
網絡結構
特徵提取網絡採用ResNet-12結構,語義變換網絡只有一個隱藏層,包含300個神經元,自適應混合網絡同樣只有一個隱藏層,包含300個神經元,和均採用ReLU激活函數與dropout操作。
損失函數
如下所示
訓練策略
如下所示
創新點
- 在特徵提取階段引入語義特徵信息,並利用自適應混合網絡調整語義特徵與圖像特徵的融合比例
算法評價
本文提出的方法非常簡單,思路也很清晰,設計的結構也很精簡,不會對原有的基於度量學習的方法帶來過多的計算壓力,但卻取得了非常顯著的進步,在多個數據集上相對於baseline,本文的分類精度都有明顯提升,尤其是在one-shot條件下,提升幅度甚至超過10%。本文提出的方法可移植性也比較強,能夠廣泛的同基於度量學習的小樣本分類算法相結合,具有較強的學習和實用價值。
如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。