論文閱讀筆記《Adaptive Cross-Modal Few-shot Learning》

原創

2020-06-14 09:03

核心思想

本文在度量學習的基礎上結合了語義信息實現小樣本學習任務。作者的核心觀點是在小樣本條件下，有些時候圖像特徵信息具有較高的區分度，而有些時候語義信息具有較高的區分度，爲了提高分類的準確度，作者提出一種自適應模態混合機制（Adaptive Modality Mixture Mechanism ，AM3）將兩種信息結合，並利用一個網絡輸出二者之間的比例權重，利用混合的特徵信息極大的改善了原有算法的分類效果。整個網絡的流程如下圖所示

如上圖所示，訓練圖片經過一個特徵提取網絡 $f$ 得到對應的圖像特徵向量 $P_c$ ，然後語義標籤信息首先經過一個詞嵌入模型 $\mathcal{W}$ （提前在一個大規模文本語料庫中經無監督訓練得到的）得到對應的語義特徵向量 $e_c$ ，然後經過一個維度變換網絡 $g$ 將其轉化爲可以用於融合的特徵 $W_c$ ，融合方式如下

式中 $\lambda_c$ 是一個分配權重係數，通過以下方式計算得到

式中 $h$ 是一個自適應混合網絡。將混合後的特徵 $P_{c}'$ ’作爲原型，採用Prototypical Network的方式進行分類預測

$\theta$ 表示網絡參數，包含 $\theta_f,\theta_g,\theta_h$ 三個部分。

實現過程

網絡結構

特徵提取網絡 $f$ 採用ResNet-12結構，語義變換網絡 $g$ 只有一個隱藏層，包含300個神經元，自適應混合網絡 $h$ 同樣只有一個隱藏層，包含300個神經元， $g$ 和 $h$ 均採用ReLU激活函數與dropout操作。

損失函數

如下所示

訓練策略

如下所示

創新點

在特徵提取階段引入語義特徵信息，並利用自適應混合網絡調整語義特徵與圖像特徵的融合比例

算法評價

本文提出的方法非常簡單，思路也很清晰，設計的結構也很精簡，不會對原有的基於度量學習的方法帶來過多的計算壓力，但卻取得了非常顯著的進步，在多個數據集上相對於baseline，本文的分類精度都有明顯提升，尤其是在one-shot條件下，提升幅度甚至超過10%。本文提出的方法可移植性也比較強，能夠廣泛的同基於度量學習的小樣本分類算法相結合，具有較強的學習和實用價值。

如果大家對於深度學習與計算機視覺領域感興趣，希望獲得更多的知識分享與最新的論文解讀，歡迎關注我的個人公衆號“深視”。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文閱讀筆記《Adaptive Cross-Modal Few-shot Learning》

核心思想

實現過程

網絡結構

損失函數

訓練策略

創新點

算法評價

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

論文閱讀筆記《Improved Few-Shot Visual Classification》

論文閱讀筆記《DPGN: Distribution Propagation Graph Network for Few-shot Learning》

論文閱讀筆記《Adaptive Subspaces for Few-Shot Learning》

論文閱讀筆記《TransMatch: A Transfer-Learning Scheme for Semi-Supervised Few-Shot Learning》

論文閱讀筆記《DeepEMD: Few-Shot Image Classification with Differentiable Earth Mover’s Distance》

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結