Towards Rich Feature Discovery with Class Activation Maps Augmentation for Person Re-Identification

行人重識別之注意力機制

Towards Rich Feature Discovery with Class Activation Maps Augmentation for
Person Re-Identification

原文鏈接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yang_Towards_Rich_Feature_Discovery_With_Class_Activation_Maps_Augmentation_for_CVPR_2019_paper.pdf

什麼是注意力機制,即attention map?在CNN計算的過程中,對圖像每一個部分的關注度是不一樣的,如下所示。生成attention map: https://github.com/jazzsaxmafia/Weakly_detector
在這裏插入圖片描述
對應到行人重識別,我們不希望網絡對某些部位過度關注,從而忽略一些關鍵信息,甚至於過度關注的部分是沒意義的。爲此就有了一個研究方向:注意力機制。

改善網絡注意力的方法有很多,比如對注意力高的地方進行遮擋、對圖像分塊分別識別、行人的語義分割等。

這篇文章對注意力機制進行研究,各人認爲實現流程相對簡單,爲我們提供了一種新思路。

改善注意力的方法:

在這裏插入圖片描述
如圖,網絡有三個分支,conv5之前參數共享。可以看出,每一個分支可以提取出對應label的attention map和標籤概率序列S。使用sigmoid激活後,對三個分支的attention map的重合度進行懲罰(如下式)。S使用交叉熵損失進行約束。整體框架就是如此簡單。
在這裏插入圖片描述
效果如下所示:
在這裏插入圖片描述
可以看出,三個分支實現了不同的關注點。在測試時,將三個特徵向量進行連接(根據之前的經驗,直接相加或許性能更好?)就可以實現對圖像整體更好的把握。
實驗證明三個分支比較好,分支過多可能會使網絡開始關注無用的背景信息:
在這裏插入圖片描述
另外作者還介紹了用於行人重識別的生成attention map的方法ranking activation map (RAM),個人覺得不是重點,這裏就不再闡述。感興趣的朋友可以參考原文。數學推導還是很簡單的。

總結:個人很喜歡這種使用一個損失函數就可以解決某類問題的文章,非常簡潔明瞭。一些需要做過多預處理的,比如行人關鍵點提取或者語義分割的,總覺得過於複雜。不知這是否是未來的發展之勢。


歡迎討論 歡迎吐槽

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章