M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

原創

Oshrin

2019-10-26 04:38

名稱：M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文獻類型：目標檢測

年份：2018

要解決的問題：提出了更快更好的網絡

問題存在的原因：目前的目標檢測網絡都有侷限性，原因在於它們只是基於物體分類的主幹網絡的固有尺度，簡單地構建特徵金字塔

解決的途徑/方法：

提出了MLFPN（Multi-level Feature Pyramid Network）用以更好地提取特徵：

FFMv1融合backbone網絡兩個不同尺度的特徵圖，生成Base feature，再將Base feature送入TUM中：

圖：TUM

生成最淺層的特徵金字塔。將TUM的最大尺度的特徵圖輸出再與Base feature利用FFMv2融合，再次送入下一個TUM：

圖：FFMv2

生成下一層次的特徵金字塔。

如此一來，可以生成大小相同而語義信息完全不同的特徵金字塔。

最後在SFAM模塊進行特徵融合：

圖：SFAM

將相同尺度，不同深度的特徵圖堆疊在一起，經過Global Average Pooling和Reweighting等操作產生最終的特徵圖。

爲何MLFPN有用？

在今年來的目標檢測網絡結構中，我們可以看到一個矛盾：語義信息更強的特徵圖總是尺度過小。科研工作者們一直致力於解決這個問題，而MLFPN或許就是一個答案。在每一個尺度上，網絡都利用不同深度的多層的特徵去檢測物體。即作者認爲，物體的語義複雜度與它在圖中的大小沒有必然關係，還是物體本身起了決定性的作用。

討論：

在文章的最後，作者也利用卷積可視化技術討論（證明）了MLFPN起作用的原因：

在圖中，人、車、紅綠燈的大小是類似的，而紅綠燈在很淺的層激活值很大，車次之，人在很深的層激活度最大。相同大小的物體爲何有如此區別？答案即爲物體本身的複雜度不同，因此檢測需要的深度不同。很明顯的人複雜度最高，車次之，紅綠燈最低。檢測人的存在需要在語義信息很重的深層特徵圖中去檢測！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

名稱：M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文獻類型：目標檢測

年份：2018

要解決的問題：提出了更快更好的網絡

問題存在的原因：目前的目標檢測網絡都有侷限性，原因在於它們只是基於物體分類的主幹網絡的固有尺度，簡單地構建特徵金字塔

解決的途徑/方法：

爲何MLFPN有用？

討論：

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

PyTorch中的BatchNorm2d層

NMS：Non-Maximum Suppression 非極大值抑制

關於auto-gradient機制與detach函數

Python的局部變量和全局變量

Module.named_parameters()、Module.named_children()與Module.named_modules()的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結