SPANet

SPANet

原創

2020-03-19 04:59

<Learning Spatial Awareness to Improve Crowd Counting>

背景介紹

由於人羣計數的數據集很難對每個目標提高box, 所以之前的工作都是利用頭部中心的位置和高斯分佈生成gt.
現存的人羣計數集中在提供尺度不變的特徵表述(那種多列並行的網絡), 主要是爲了空間感知能力. 在這其中作者發現, 對密度區域估計不足, 對稀疏區域估計過多. 這種明顯的空間感知缺陷主要由兩個原因造成的:

L2損失很難保持在高密度圖中的高頻變化: 最小化L2損失就是努力達到全局平均最小化, 這通常導致過於平滑, 因此空間感知能力差
L2損失對於噪音敏感

之前工作提出MESA loss可以通過求出預測的Density Map與GT的差異最大的矩形分區解決上訴問題,但是方案的計算複雜度很高,而且不能通過梯度下降最優化. 本文的靈感就來自這個損失.改進成了去找誤差最大的點，而不是誤差最大的區域, 提出了Spatial Awareness Network和Maximum Excess over Pixels loss.

本文方案

1. Spatial Awareness Network

如上圖的多分支架構, 每個分支預測兩個mask(一個mask是另一個mask的子區域)利用弱監督排序信息來發現差異大的像素，然後通過模仿顯著性區域檢測利用整個圖像進行差異檢測，從而獲得與 ground truth 具有較大差異的像素級子區域S。

Multi-brach Architecture
每個分支patch的選擇, 每個patch的右下角和原特徵圖右下角重合, 然後從分支上到下patch的棉結不斷增大, 直到和特徵圖一樣大. 但是由於patch的疊加, 這會不利於最後的最優化. 所以就擦除掉最後上個分支對應的區域.
Pixel-level Subregion Generation
啥意思呢?
Maximum Excess over Pixels (MEP) loss

2. MEP loss

總結

看了一半沒看懂後續, 感覺對自己的任務沒啥幫助, 就看到這吧

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

<Learning Spatial Awareness to Improve Crowd Counting>

背景介紹

本文方案

1. Spatial Awareness Network

2. MEP loss

總結

VGG: VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Object Counting and Instance Segmentation with Image-level Supervision

FCOS (ICCV2019)

DenseNet: Densely connected convolutional network

TEDnet

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結