行人檢測幾篇論文相關筆記

這部分內容會持續更新,比較難的論文會單獨開篇博文講解,相對比較簡單的就只寫概要記錄在此篇博文中。

PedHunter: Occlusion Robust Pedestrian Detector in Crowded Scenes

  • 鏈接:https://arxiv.org/abs/1909.06826
  • 代碼:https://github.com/ChiCheng123/PedHunter(目前還未放)
  • 網絡架構
    在這裏插入圖片描述
  • 創新
    其實就是mask-rcnn模型,與mask-rcnn不同的點爲:
    1)人體mask預測分支改爲預測head的mask,並且在推斷過程中,去掉mask預測分支;作用:對行人檢測添加額外的監督信息,且不增加推斷的計算量;
    2)rpn選擇proposal更加嚴格:iou閾值從0.5調整爲0.7;作用:用來訓練的正例質量更高,預測效果更好;
    3)數據增強:爲了對遮擋情況魯棒性更好,將行人檢測框分爲五部分:頭部,左上身、右上身、坐下身、右下身,訓練時,每個圖像groud truth內以0.5的概率隨機遮擋後四部分的其中一部分,將值替換成imageNet中的均值。
    4)提供一個新的行人檢測數據集:SUR-PED

Attribute-aware Pedestrian Detection in a Crowd

  • 鏈接:https://arxiv.org/pdf/1910.09188v2.pdf
  • 代碼:https://github.com/kalyo-zjl/APD(只放了測試代碼)
  • 網絡架構
    在這裏插入圖片描述
  • 創新
    一階段anchor-free的預測框。利用backbone提取特徵,然後採用四個分支進行網絡預測。
    1)center分支:map大小爲RWr×Hr×1R^{\frac{W}{r}\times\frac{H}{r}\times1},(W, H)爲原始圖像尺寸,r爲stride,預測center map中的每個點爲中心點的概率。
    2)scale分支:map大小爲RWr×Hr×2R^{\frac{W}{r}\times\frac{H}{r}\times2}, 預測bounding box的寬和高;
    3)offset分支:map大小爲RWr×Hr×2R^{\frac{W}{r}\times\frac{H}{r}\times2},預測中心點的偏移;
    4)Attribute map: map大小爲KaTeX parse error: Undefined control sequence: \timesm at position 32: …imes\frac{H}{r}\̲t̲i̲m̲e̲s̲m̲},每個點學習一個向量,對於正例,利用這個向量可以得到兩個bounding box之間的密集度和差異度。
    5)上述四個分支的結和:利用center分支和offset分支得到精度的中心點位置,再利用scale得到bounding box框,後處理時,利用attribute分支得到的屬性採用Attribute-aware NMS算法得到最終的結果。
    6)Attribute-aware NMS算法
    在這裏插入圖片描述
    上述爲僞代碼,整體思想爲:只有當M框的密集度比較大而且M框與候選框的差異度比較大時,nms的閾值會比較大,其他時候nms閾值都較小。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章