<Learning Spatial Awareness to Improve Crowd Counting>
背景介紹
由於人羣計數的數據集很難對每個目標提高box, 所以之前的工作都是利用頭部中心的位置和高斯 分佈生成gt.
現存的人羣計數集中在提供尺度不變的特徵表述(那種多列並行的網絡), 主要是爲了空間感知能力. 在這其中作者發現, 對密度區域估計不足, 對稀疏區域估計過多. 這種明顯的空間感知缺陷主要由兩個原因造成的:
- L2損失很難保持在高密度圖中的高頻變化: 最小化L2損失就是努力達到全局平均最小化, 這通常導致過於平滑, 因此空間感知能力差
- L2損失對於噪音敏感
之前工作提出MESA loss可以通過求出預測的Density Map與GT的差異最大的矩形分區解決上訴問題,但是方案的計算複雜度很高,而且不能通過梯度下降最優化. 本文的靈感就來自這個損失.改進成了去找誤差最大的點,而不是誤差最大的區域, 提出了Spatial Awareness Network和Maximum Excess over Pixels loss.
本文方案
1. Spatial Awareness Network
如上圖的多分支架構, 每個分支預測兩個mask(一個mask是另一個mask的子區域)利用弱監督排序信息來發現差異大的像素,然後通過模仿顯著性區域檢測利用整個圖像進行差異檢測,從而獲得與 ground truth 具有較大差異的像素級子區域S。
-
Multi-brach Architecture
每個分支patch的選擇, 每個patch的右下角和原特徵圖右下角重合, 然後從分支上到下patch的棉結不斷增大, 直到和特徵圖一樣大. 但是由於patch的疊加, 這會不利於最後的最優化. 所以就擦除掉最後上個分支對應的區域. -
Pixel-level Subregion Generation
啥意思呢? -
Maximum Excess over Pixels (MEP) loss
2. MEP loss![在這裏插入圖片描述]()
總結
看了一半沒看懂後續, 感覺對自己的任務沒啥幫助, 就看到這吧