名稱:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
文獻類型:目標檢測
年份:2018
要解決的問題:提出了更快更好的網絡
問題存在的原因:目前的目標檢測網絡都有侷限性,原因在於它們只是基於物體分類的主幹網絡的固有尺度,簡單地構建特徵金字塔
解決的途徑/方法:
提出了MLFPN(Multi-level Feature Pyramid Network)用以更好地提取特徵:
FFMv1融合backbone網絡兩個不同尺度的特徵圖,生成Base feature,再將Base feature送入TUM中:
圖:TUM
生成最淺層的特徵金字塔。將TUM的最大尺度的特徵圖輸出再與Base feature利用FFMv2融合,再次送入下一個TUM:
圖:FFMv2
生成下一層次的特徵金字塔。
如此一來,可以生成大小相同而語義信息完全不同的特徵金字塔。
最後在SFAM模塊進行特徵融合:
圖:SFAM
將相同尺度,不同深度的特徵圖堆疊在一起,經過Global Average Pooling和Reweighting等操作產生最終的特徵圖。
爲何MLFPN有用?
在今年來的目標檢測網絡結構中,我們可以看到一個矛盾:語義信息更強的特徵圖總是尺度過小。科研工作者們一直致力於解決這個問題,而MLFPN或許就是一個答案。在每一個尺度上,網絡都利用不同深度的多層的特徵去檢測物體。即作者認爲,物體的語義複雜度與它在圖中的大小沒有必然關係,還是物體本身起了決定性的作用。
討論:
在文章的最後,作者也利用卷積可視化技術討論(證明)了MLFPN起作用的原因:
在圖中,人、車、紅綠燈的大小是類似的,而紅綠燈在很淺的層激活值很大,車次之,人在很深的層激活度最大。相同大小的物體爲何有如此區別?答案即爲物體本身的複雜度不同,因此檢測需要的深度不同。很明顯的人複雜度最高,車次之,紅綠燈最低。檢測人的存在需要在語義信息很重的深層特徵圖中去檢測!