M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

名稱:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文獻類型:目標檢測

年份:2018

要解決的問題:提出了更快更好的網絡

問題存在的原因:目前的目標檢測網絡都有侷限性,原因在於它們只是基於物體分類的主幹網絡的固有尺度,簡單地構建特徵金字塔

解決的途徑/方法:

提出了MLFPN(Multi-level Feature Pyramid Network)用以更好地提取特徵:

FFMv1融合backbone網絡兩個不同尺度的特徵圖,生成Base feature,再將Base feature送入TUM中:

                                                                                      圖:TUM

生成最淺層的特徵金字塔。將TUM的最大尺度的特徵圖輸出再與Base feature利用FFMv2融合,再次送入下一個TUM:

                                                                                      圖:FFMv2

生成下一層次的特徵金字塔。

如此一來,可以生成大小相同而語義信息完全不同的特徵金字塔。

最後在SFAM模塊進行特徵融合:

                                                                                      圖:SFAM

將相同尺度,不同深度的特徵圖堆疊在一起,經過Global Average Pooling和Reweighting等操作產生最終的特徵圖。

爲何MLFPN有用?

在今年來的目標檢測網絡結構中,我們可以看到一個矛盾:語義信息更強的特徵圖總是尺度過小。科研工作者們一直致力於解決這個問題,而MLFPN或許就是一個答案。在每一個尺度上,網絡都利用不同深度的多層的特徵去檢測物體。即作者認爲,物體的語義複雜度與它在圖中的大小沒有必然關係,還是物體本身起了決定性的作用。

討論:

在文章的最後,作者也利用卷積可視化技術討論(證明)了MLFPN起作用的原因:

在圖中,人、車、紅綠燈的大小是類似的,而紅綠燈在很淺的層激活值很大,車次之,人在很深的層激活度最大。相同大小的物體爲何有如此區別?答案即爲物體本身的複雜度不同,因此檢測需要的深度不同。很明顯的人複雜度最高,車次之,紅綠燈最低。檢測人的存在需要在語義信息很重的深層特徵圖中去檢測!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章