論文閱讀【FCOS】

Fully Convolutional One-Stage Object Detection

論文:https://arxiv.org/abs/1904.01355
代碼: https://github.com/tianzhi0549/FCOS

在這裏插入圖片描述

行人檢測與通用目標檢測:

行人檢測就是更具體的目標檢測,只需要檢測出行人即可。與通用目標檢測相比,行人檢測有自己的差異化特徵。
行人檢測和通用目標檢測的區別,主要有兩點:(1). 檢測目標類別數不同; (2). 評測指標不同。第一點大家很容易理解,主要談談第二點。通用目標檢測的評測指標是[email protected](越高越好),而行人檢測的評測指標是mMR (Log-average Miss Rate)(越低越好)。

mAP是對Precision和Recall做整體評估,即P-R曲線下的面積,在這個指標下的低分TP可以帶來Recall的提升,因此mAP指標也會提升,這也是RetinaNet[3]漲點的一方面,如果觀察其P-R曲線就可以發現很長的尾巴。
評估表的miss rate 是log-average miss rate。這個到底該怎麼算啊?


首先fppi(也叫miss rate)的理解應該是:測試的n幅Full Image 圖像下出現了多少個誤撿的窗口,假設是100幅中有1個誤撿窗口,即fppi爲0.01,那麼此時的100幅圖像中每一幅圖像都有自己的miss rate,然後對這些miss rate 求log平均,從而得到log-average miss rate.

若每幅圖像miss rate爲x。則log-average miss rate爲:

2[log(x1)+log(x2)+log(x3)+...log(xn)]/n...2的[log(x1)+log(x2)+log(x3)+...log(xn)]/n ...次冪

因此mAP高的模型不一定mMR低。以上就是兩個評測指標的區別,兩個各有優劣,適用場景不同,例如對於行人檢測來說,更重要的是減少FP,如果能減少高分FP將在指標上帶來很大的提升。

對於行人檢測來說,擁擠遮擋是一個很大的難題,將會導致大量的FP和FN的產生,如圖所示:
在這裏插入圖片描述

在擁擠場景,不同人會相互交疊,導致其特徵相互交叉以至於難以區分邊界,這個時候檢測器很可能會把多個人檢測成一個人或者檢測框會偏移。此外,目標檢測系統最後都會有NMS(非極大值抑制)做後處理,但是如果兩個人靠得很近,將很難確定NMS的閾值,太大則會導致誤檢多,太小導致漏檢多。上圖可以看到黃色虛線是被NMS誤殺導致的FN,紅色實線是特徵交叉導致的FP。

Anchor-base方式的缺點:

1,像SSD,RetinaNet,YOLO v2-YOLO v3需要人工設置多種Scale 的 Feature Map(類似FPN,特徵金字塔), 以及Anchor長寬比。
2. 大量預定義生成的box(2K-100K or more),產生無用的Box負樣本增多,訓練不均衡
3. 大量box 產生IOU Loss,會有很多次計算量
4. ANchor-base 方式的大量超參數需要調試

一、論文創新點:

1.一種One-stage方法,提出Anchor-free 的Bounding box 檢測模式,避免了training中的IOU Loss計算,以及Anchor 檢測方式的各種超參數(如scale,長寬比等)
2.Bounding box後處理僅採用NMS方式,並無其他複雜計算
3. 如上圖,Box 迴歸採用物體位置中心點xy(x,y)和中心點與四個邊的(l,t,r,b)(l, t, r, b)距離
4. 採用FCN-base +Center Ness減少冗餘 box數量,最後 NMS處理

二、實驗結果:

Backbone採用ResNet 101網絡,在CoCo數據集上獲得44.7%的Map值
在這裏插入圖片描述

三、細節部分:

實驗以逐像素預測的方式重新定義目標檢測。多級預測來提高召回率和解決由於重疊邊界框而產生的歧義。最後,使用Center-ness分支,它有助於抑制低質量檢測的邊界框,並大大提高了整體性能。
下圖C3-C5是特徵圖,P3到P7是用於最終預測的特徵級別,每個Head預測模塊包含 類別預測,中心點Center-Ness抑制冗餘box,加Local 位置迴歸
在這裏插入圖片描述
Loss 損失將Class類別預測和Reg 迴歸函數相加,
迴歸函數這裏的 t【t=(l;t;r;b)t = (l; t; r; b), 中心點距離四邊的lr,b,t(l,r, b, t)】, 由四個參數組成,先在FPN的每個map上得到大量中心點,判斷是否在Ground Truth的區域內,是C* 爲1,否爲0;
然後預測點與Ground Truth的四個邊計算t*, 然後與Ground Truth原有的t作比較。
在這裏插入圖片描述
在這裏插入圖片描述

中心點篩選函數

在這裏插入圖片描述
假設預測點偏離中心點很遠,max趨於大值。min趨於小值,則Center-ness越小。。。。。反之,Center-ness值越大說明這個預測中心點越接近真實中心點

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章