SPANet

<Learning Spatial Awareness to Improve Crowd Counting>


背景介紹

由於人羣計數的數據集很難對每個目標提高box, 所以之前的工作都是利用頭部中心的位置和高斯 分佈生成gt.
現存的人羣計數集中在提供尺度不變的特徵表述(那種多列並行的網絡), 主要是爲了空間感知能力. 在這其中作者發現, 對密度區域估計不足, 對稀疏區域估計過多. 這種明顯的空間感知缺陷主要由兩個原因造成的:

  1. L2損失很難保持在高密度圖中的高頻變化: 最小化L2損失就是努力達到全局平均最小化, 這通常導致過於平滑, 因此空間感知能力差
  2. L2損失對於噪音敏感

之前工作提出MESA loss可以通過求出預測的Density Map與GT的差異最大的矩形分區解決上訴問題,但是方案的計算複雜度很高,而且不能通過梯度下降最優化. 本文的靈感就來自這個損失.改進成了去找誤差最大的點,而不是誤差最大的區域, 提出了Spatial Awareness NetworkMaximum Excess over Pixels loss.

本文方案

1. Spatial Awareness Network

在這裏插入圖片描述
如上圖的多分支架構, 每個分支預測兩個mask(一個mask是另一個mask的子區域)利用弱監督排序信息來發現差異大的像素,然後通過模仿顯著性區域檢測利用整個圖像進行差異檢測,從而獲得與 ground truth 具有較大差異的像素級子區域S。

  • Multi-brach Architecture
    每個分支patch的選擇, 每個patch的右下角和原特徵圖右下角重合, 然後從分支上到下patch的棉結不斷增大, 直到和特徵圖一樣大. 但是由於patch的疊加, 這會不利於最後的最優化. 所以就擦除掉最後上個分支對應的區域.

  • Pixel-level Subregion Generation在這裏插入圖片描述
    啥意思呢?

  • Maximum Excess over Pixels (MEP) loss

2. MEP loss在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述

總結

看了一半沒看懂後續, 感覺對自己的任務沒啥幫助, 就看到這吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章