《LOCALITY-CONSTRAINED SPATIAL TRANSFORMER NETWORKFOR VIDEO CROWD COUNTING》論文筆記

論文地址

論文翻譯

ABSTRACT

與基於單個圖像的人羣計數相比,視頻提供了人羣的時空信息,這將有助於提高人羣計數的魯棒性。但是人的平移,旋轉和縮放會導致相鄰幀之間的頭部密度圖發生變化。同時,步入/駛出或被動態場景遮擋的人會導致人數的變化。爲了減輕視頻人羣計數中的這些問題,提出了局域性空間變壓器網絡(LSTN)。具體來說,我們首先利用卷積神經網絡來估計每個幀的密度圖,然後,爲了將相鄰幀之間的密度圖關聯起來,引入了局部性受限空間變換器(LST)模塊,以估計下一幀與當前幀的密度圖。爲了促進性能評估,收集了一個大規模的視頻人羣計數數據集,其中包含15K幀以及從13個不同場景捕獲的約394K帶註釋的頭部。 據我們所知,它是最大的視頻人羣計數數據集。在我們的數據集和其他人羣計數數據集上進行的大量實驗驗證了我們的LSTN在人羣計數方面的有效性。我們所有的數據集都在https://github.com/sweetyy83/Lstn_fdst_dataset中發佈。

1. INTRODUCTION

人羣計數由於其在視頻監視,交通控制和緊急情況管理中的潛在應用而已廣泛用於計算機視覺。但是,大多數以前的著作1 ,2, 3都集中在基於單個圖像的人羣計數上。在實際應用中,我們手頭有視頻,通常人羣的移動是可預測的且一致的4。在本文中,我們的目標是利用相鄰幀之間的時空一致性來獲得更可靠的視頻人羣計數。
      ~~~~~~以前的人羣計數方法可以大致分爲基於檢測的方法和基於迴歸的方法。基於檢測的方法通過檢測頭部或行人來計數人羣,但是這些方法通常無法檢測到微小的5或閉塞的6頭部/身體,這在實際場景中非常常見。因此,基於迴歸的方法更爲常用。最近,鑑於卷積神經網絡(CNN)在圖像分類方面的成功,它也已被引入人羣計數,其中CNN用於學習從輸入圖像到其對應密度圖的映射。爲了利用相鄰幀之間的時空一致性來獲得視頻中更準確的密度圖,已經提出了基於LSTM 7或ConvLSTM 8的方法,該方法可以將LSTM或ConvLSTM的所有歷史幀的特徵累加起來,以進行密度圖估計。這些方法已經證明了其對視頻人羣計數的有效性,但是它們以隱式方式利用了歷史信息,並且當人們走進/出入或被遮擋時,歷史幀中人羣的身份可能與當前幀中的人羣完全不同。因此,這些歷史記錄中的特徵甚至可能會損害當前幀的密度圖估計。
      ~~~~~~在本文中,我們不是使用LSTM或ConvLSTM隱式地對視頻中的時空相關性進行建模,而是建議利用局域性空間轉換器(LST)模塊來顯式地對相鄰幀之間的時空相關性進行建模。
      ~~~~~~具體地說,一方面,在人羣相同的情況下,先前的工作4表明可以很好地預測人羣的軌跡。 但是由於視角,距離,旋轉和照明的變化,同一個人的外觀可能在視覺上發生很大變化,因此有時可能不容易在兩個相鄰的框架中直接重新識別該人。但是密度圖忽略了人們的外表,僅與頭部的位置有關。由於人們的軌跡是可預測的,因此一幀的密度圖可能會通過一些轉換而偏離其前一幀的密度圖,其中包括人們遠離或朝着相機走來引起的縮放和平移,相機運動引起的旋轉等。另一方面,對於視頻,某些人走進/走出攝像機的成像範圍或被遮擋。在這些情況下,從先前的幀中估計這些人的密度圖是不可行的。通過在LST中綜合考慮所有這些因素,我們建議不要將整個幀的密度圖翹曲,而是將每個幀分成多個塊。如果這兩個塊相似,則它們可能對應於相同的總體,則地面真實密度圖和扭曲密度圖之間的差異應較小。如果有人進/出或被遮擋,則我們允許前一幀的扭曲密度圖與地面真實情況略有不同。此外,由於僅使用相鄰幀之間的時空依賴性,因此我們的模型可以擺脫不相關歷史幀在密度圖估計中的影響。實驗驗證了我們的視頻人羣計數模型的有效性。
      ~~~~~~對於視頻人羣計數,需要具有多個場景的大規模數據集。但是大多數現有的數據集都太小,只有幾個場景。 例如,WorldExpo’10 個數據集是上一幅作品中最大的一個,僅包含5個場景。因此,我們建議構建一個具有更多場景的名爲"Fudan-ShanghaiTech (FDST)"的新的大規模視頻人羣計數數據集。具體來說,FDST數據集包含15,000個幀,從13個不同的場景(包括購物廣場,廣場,醫院等)捕獲了394,081個帶註釋頭。該數據集比WorldExpo’10數據集要大得多,後者僅包含3980個帶199,923個帶註釋頭的幀。此外,我們提供逐幀註釋,而WordExPo’10僅每30秒提供一次註釋。因此,FDST數據集更適合視頻人羣計數評估。
      ~~~~~~我們的工作的主要貢獻可以概括如下:i)我們提出了一個局域性空間變壓器網絡(LSTN),該網絡顯式地對相鄰幀之間的時空相關性進行建模,以方便視頻人羣計數。ii)我們收集了具有逐幀地面真實註釋的大規模視頻人羣計數數據集,這將有助於評估視頻人羣計數中的性能。iii)大量實驗驗證了我們的視頻人羣計數模型的有效性。

2. RELATED WORK

      ~~~~~~由於我們的工作與基於深度學習的人羣計數有關,因此在這裏我們僅簡要討論基於深度學習的人羣計數的最新工作。
      ~~~~~~人羣計數爲單個圖像。 最近的工作3 9 10已經證明了CNN在單圖像人羣計數中對密度圖估計的有效性。爲了提高不同規模和密度地區人羣計數的魯棒性,提出了不同的網絡架構,包括MCNN3、Hydra CNN11、Switch-CNN9、CSRNet10,基本上利用了具有不同局部接受域的網絡進行密度地圖估計。此外,最近人們還提出利用檢測12或定位13任務來輔助人羣計數任務。但在視頻人羣計數中,這些單圖像人羣計數方法可能導致相鄰幀的人頭計數不一致。
      ~~~~~~視頻的人羣計數。 以前的大多數作品都集中在單個圖像人羣計數上,而只有少數幾本關於視頻人羣計數的作品。最近,Xiong等人8建議利用ConvLSTM集成歷史特徵和當前幀的特徵以進行視頻人羣計數,這已經證明了其對視頻人羣計數的有效性。此外,Zhanget等人7還建議將LSTM用於視頻中的車輛計數。但是,所有這些基於LSTM的方法都可能受到那些​​不相關的歷史的影響,並且沒有明確考慮視頻中的時空依賴性,而在我們的解決方案中,使用LST明確地在相鄰幀中對此類依賴性進行建模。因此,我們的解決方案更爲直接。
      ~~~~~~空間變壓器網絡(STN)。 最近,Jader-berget等人提出了一種可微空間變壓器(ST)模塊,該模塊能夠對輸入和輸出之間的空間轉換進行建模。該ST模塊可以方便地接入現有的多種網絡並進行端到端訓練,在人臉比對1415和人臉識別16方面顯示出了良好的效果。此外,該算法還被應用於基於由粗到精的單圖像人羣計數框架17中的密度地圖估計。但與17不同的是,我們建議利用ST來關聯相鄰幀之間的圖像進行視頻衆包。
在這裏插入圖片描述

3. OUR APPROACH

我們的網絡架構如圖1所示。它包括兩個模塊:密度圖迴歸模塊和局部約束空間變壓器(LST)模塊。密度圖迴歸模塊以每一幀爲輸入,估計其對應的密度圖,LST模塊以估計的密度圖爲輸入,預測下一幀的密度圖。

3.1. Density map regression module

密度圖的生成對於基於密度圖的人羣計數性能非常重要。 給定一幀具有 NN 個頭,如果第 ii 個磁頭以 pip_i 爲中心,我們將其表示爲增量函數 δ(ppi)δ(p-p_i)。因此,可以如下計算該幀的地面密度圖:
在這裏插入圖片描述
Gσ(p)Gσ(p) 是具有方差 σσ 的二維高斯核:
在這裏插入圖片描述
換句話說,如果一個像素在註釋點附近,則它具有較高的屬於頭部的可能性。定義密度圖後,密度圖迴歸模塊會將每個幀映射到其相應的密度圖。我們將 tth(t=1...T)t^{th}(t = 1,...,T) 幀的地面真實密度圖表示爲 MtGTM^{GT}_t,並將通過密度圖迴歸模塊估算的密度圖表示爲 MtregM^{reg}_{t}。 然後可以將密度圖迴歸模塊的目標編寫如下:
在這裏插入圖片描述
在我們的實現中,我們在密度圖迴歸模塊中使用VGG-16網絡。

3.2. LST module

對於視頻中相同的人羣,許多之前的工作已經表明,這些人的軌跡可以很好地預測。因此,前一幀的密度圖將有助於當前幀的密度圖預測。然而,在所有的視頻人羣計數數據集中,並沒有提供相鄰幀中人員的對應關係,這就避免了直接學習從前一幀的頭座標到當前幀的頭座標的映射。此外,由於相鄰幀中的視角,距離,旋轉和照明條件的變化以及遮擋,同一個人的外觀可能在視覺上發生很大變化,這使得難以在兩個幀中直接重新識別該個人。但是密度圖忽略了人們的外表,僅與人頭的位置有關。現在人們的軌跡是可以預測的,我們可以利用前一幀的密度圖來估計同一組人當前幀的密度圖。具體地說,如果人們離開相機或朝相機走去,則同一組人在相鄰幀中的密度圖的變形包括縮放和平移;如果相機存在某種運動(例如,由風或地面振動引起的運動),則旋轉包括旋轉和縮放。
      ~~~~~~最近的工作17顯示了空間變壓器(ST)模塊對於學習輸入和輸出之間的轉換的有效性。因此,ST可以用於學習兩個相鄰幀之間的同一人羣的映射。但是,實際上,人們走進/走出攝像機的範圍,可能會遮擋某些人,這限制了ST的應用。因此,在本文中,我們提出了一種LST,它實質上是每個圖像塊的加權ST。具體來說,我們將每個幀分成許多塊。鑑於兩個具有相同空間座標但來自兩個相鄰幀的塊,我們使用它們的相似度來加權一個塊的地面密度圖與從另一個塊轉換的密度圖之間的差異。如果這兩個塊相似,則它們可能對應於相同的總體,則地面實度圖和變換的密度圖之間的差異應較小。如果有人進/出或被遮擋,則我們允許估計的密度圖與地面真相略有不同。通過最小化所有塊和所有幀之間的這種差異,可以利用相鄰幀之間的依存關係進行視頻人羣計數。
      ~~~~~~我們將 LSTLST 模塊的映射函數表示爲 fLSTf_{LST},該函數將第 tt 幀的估計密度圖作爲輸入來估計第 (t+1)th(t + 1)^{th} 幀的密度圖。我們使用 Mt+1LSTM^{LST}_{t + 1} 表示由 LSTLST 估計的第(t + 1)幀的密度圖。然後
在這裏插入圖片描述
其中 (xityit)(x^{t}_{i},y^t_i) 是輸出密度圖中採樣網格 ΓθΓ_θ 的目標座標,(xisyis)(x^{s}_{i},y^s_i) 是輸入密度圖中定義採樣點的源座標,而 AθA_θ表示變換矩陣18。我們將每幀 ItI_tMt+1GTM^{GT}_{t + 1}Mt+1LSTM^{LST}_{t + 1} 均勻劃分爲 H×WH×W 個塊,並使用 It(i,j)I_t(i,j)Mt+1GT(i,j)M^{GT}_{t + 1}(i,j)Mt+1LST(i,j)M^{LST}_{t + 1}(i,j) 表示該塊在第 tt 幀的第 jj 列和第 ii 行中,其地面真密度圖和LST估計的密度圖。然後,LST的目標可以寫成如下。

在這裏插入圖片描述
其中 S(It(ij)It+1(ij))S(I_t(i,j),I_{t + 1}(i,j)) 表示對應的時間相鄰塊之間的相似度,可如下測量:
在這裏插入圖片描述

3.3. Loss function

我們將密度圖迴歸模型的損耗與LST模型的損耗結合起來,得到如下的目標函數
在這裏插入圖片描述
λλ 是用來平衡 lregl_{reg}lLSTl_{LST} 重量。在培訓過程中,使用了 Adam 優化器,數據集的學習率爲1e-8。爲了減少過擬合,我們採用批處理歸一化,批處理大小爲5。訓練好我們的網絡後,在測試階段,我們可以直接估計每個幀的密度圖,並集成密度圖以獲得估計的人頭數。

3.4. Implementation details

基於高斯的密度圖生成的方差 γ=3γ= 3,並且在FDST數據集上用於相似性測量的 ββ 爲30。 我們將所有幀的尺寸調整爲640×360640×360 像素。 我們首先預訓練密度圖迴歸模塊,然後通過修復VGG-16中的前10層來微調整個網絡。對於塊數,我們在所有數據集上固定 W=2W = 2。在Malldataset和我們的數據集上,我們在UCSD數據集上固定 H=1H=2H = 1,而H = 2。我們在FDST數據集†上設置 λ=0.001λ= 0.001

4. EXPERIMENTS

在這裏插入圖片描述

4.1. Evaluation metric

在工作19之後,我們採用平均絕對誤差(MAE)和均方誤差(MSE)作爲度量標準來評估不同方法的性能,其定義如下:
在這裏插入圖片描述
其中,tt 是所有測試視頻序列的幀總數,ziz_iziz_i 分別是該第ii幀中的實際人數和估計的人數。

4.2. Fudan-ShanghaiTech video crowd counting dataset

現有的視頻人羣計數數據集在幀數和場景數量上都太小。因此,我們引入了一個新的大規模視頻人羣計數數據集。具體來說,我們收集了從13個不同場景中捕獲的100個視頻,FDST數據集包含150,000幀,總共有394,081個帶批註的頭部。註釋FDST數據集需要400多個小時。據我們所知,這個數據集是最大的視頻人羣統計數據集。表1顯示了我們的數據集和其他相關數據集的統計數據。
      ~~~~~~FDST數據集的訓練集包含60個視頻,9000幀,而測試集包含其餘的40個視頻,6000幀。 我們將我們的方法與實現單圖像人羣統計的最新性能的MCNN 3進行比較,將ConvLSTM 8作爲最新視頻人羣統計的方法進行比較。我們還報告了不使用LST的方法的性能。所有結果示於表2中。我們可以看到我們的方法達到了最佳性能。值得一提的是,由於我們的數據集中場景很多,訓練ConvLSTM並不容易,因此ConvLSTM的性能甚至比單幅圖像差。基於方法。 我們還在圖2中顯示了由LSTN估計的密度圖。
在這裏插入圖片描述

4.3. The UCSD dataset

我們還使用UCSD數據集20評估了我們的方法,該數據集包含UCSD校園中的監視攝像機捕獲的2000幀。幀分辨率爲 238×158238×158 像素,幀速率爲 10fps10 fps 。 每幀中的人數從 11 到 46 不等。按照與20相同的設置,我們使用 601 至 1400 幀作爲訓練數據,其餘 1200 幀作爲測試數據。
      ~~~~~~按照10,我們使用雙線性插值將每個幀的大小調整爲 952×632952×632。表圖3顯示了此數據集上不同方法的準確性。我們可以看到我們的方法在該數據集上也優於基於ConvLSTM的方法。
在這裏插入圖片描述

4.4. The Mall dataset

使用監視相機21在購物中心中捕獲Mall數據集。 這個基於視頻的數據集由2000個幀組成,尺寸爲 640×480640×480 像素,並標記了60,000多名行人。 還提供了感興趣區域(ROI)和透視圖。 根據21中的訓練測試設置,我們使用前800幀進行訓練,其餘1200幀進行測試。表中顯示了不同方法的性能。 如圖4所示,我們的模型在MAE和MSE方面也都達到了最先進的性能。
在這裏插入圖片描述

4.5. The importance of similarity term in LST

在我們的LSTN中,我們使用時間相鄰區塊之間的相似性來加權變形密度圖及其地面真實性之間的差異。基本假設是,如果兩個塊相似,則這兩個塊中的人口可能對應於同一組人,那麼空間變換器會很好地工作。但是,如果相似度較低,則意味着人們走進/進出或被遮擋,則不太可能推斷時間相鄰幀中的塊密度圖。我們比較了UCSD,Mall,FDST數據集上有/沒有相似項的結果,結果如表5所示。我們可以看到,相似度項總是引導視頻人羣計數的性能,這證明了我們的假設。
在這裏插入圖片描述

5. CONCLUSION

6. REFERENCES


  1. M. Fu, P. Xu, X. Li, Q.Liu, M.Ye, and C.Zhu, “Fastcrowd density estimation with convolutional neural net-works,”Engineering Applications of Artificial Intelli-gence, pp. 81 – 88, 2015. ↩︎

  2. Cong Zhang, Hongsheng Li, Xiaogang Wang, and Xi-aokang Yang, “Cross-scene crowd counting via deepconvolutional neural networks,” inCVPR, June 2015. ↩︎

  3. Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, “Single-image crowd counting via multi-column convolutionalneural network,” inCVPR, June 2016, pp. 589–597. ↩︎ ↩︎ ↩︎ ↩︎

  4. B. Federico, L. Giuseppe, Ballan L, and A. Bimbo,“Context-aware trajectory prediction,”internationalconference on pattern recognition, 2017. ↩︎ ↩︎

  5. N. Dalal and B. Triggs, “Histograms of oriented gradi-ents for human detection,” pp. 886–893, 2005. ↩︎

  6. Oncel Tuzel, Fatih Porikli, and Peter Meer, “Pedestriandetection via classification on riemannian manifolds,”TPAMI, vol. 30, no. 10, pp. 1713–1727, 2008. ↩︎

  7. S. Zhang, G. Wu, J. P. Costeira, and J. M. F. Moura,“Fcn-rlstm: Deep spatio-temporal neural networks forvehicle counting in city cameras,” inICCV, Oct 2017,pp. 3687–3696. ↩︎ ↩︎

  8. X. Feng, X. Shi, and D. Yeung, “Spatiotemporal model-ing for crowd counting in videos,” inICCV. IEEE, 2017,pp. 5161–5169. ↩︎ ↩︎ ↩︎

  9. Deepak Babu Sam, Shiv Surya, and R. Venkatesh Babu,“Switching convolutional neural network for crowdcounting,” inCVPR, July 2017. ↩︎ ↩︎

  10. Y. Li, X. Zhang, and D. Chen, “Csrnet: Dilated con-volutional neural networks for understanding the highlycongested scenes,” inCVPR, 2018, pp. 1091–1100. ↩︎ ↩︎ ↩︎

  11. Daniel D. Onoro-Rubio and R. L ́opez-Sastre, “Towardsperspective-free object counting with deep learning,” inECCV. Springer, 2016, pp. 615–629. ↩︎

  12. J. Liu, C. Gao, D. Meng, and A. Hauptmann, “Deci-denet: counting varying density crowds through atten-tion guided detection and density estimation,” inCVPR,2018, pp. 5197–5206. ↩︎

  13. M. Tayyab H. Idrees, K. Athrey, D. Zhang, S. Al-maadeed, N. Rajpoot, and M. Shah, “Composition lossfor counting, density map estimation and localization indense crowds.,”arXiv: Computer Vision and PatternRecognition, 2018. ↩︎

  14. Dong Chen, Gang Hua, Fang Wen, and Jian Sun, “Su-pervised transformer network for efficient face detec-tion,” inECCV. Springer, 2016, pp. 122–138. ↩︎

  15. Yuanyi Zhong, Jiansheng Chen, and Bo Huang, “To-ward end-to-end face recognition through alignmentlearning,”IEEE signal processing letters, vol. 24, no.8, pp. 1213–1217, 2017. ↩︎

  16. Wanglong Wu, Meina Kan, Xin Liu, Yi Yang, ShiguangShan, and Xilin Chen, “Recursive spatial transformer(rest) for alignment-free face recognition,” inCVPR,2017, pp. 3772–3780. ↩︎

  17. Lingbo Liu, Hongjun Wang, Guanbin Li, WanliOuyang, and Liang Lin, “Crowd counting usingdeep recurrent spatial-aware network,”arXiv preprintarXiv:1807.00601, 2018. ↩︎ ↩︎ ↩︎

  18. Max Jaderberg, Karen Simonyan, Andrew Zisserman,et al., “Spatial transformer networks,” inAdvances inneural information processing systems, 2015, pp. 2017–2025. ↩︎

  19. Karunya Tota and Haroon Idrees, “Counting in densecrowds using deep features,” 2015. ↩︎

  20. A. B. Chan, Zhang-Sheng John Liang, and N. Vascon-celos, “Privacy preserving crowd monitoring: Countingpeople without people models or tracking,” inCVPR,June 2008, pp. 1–7. ↩︎ ↩︎

  21. Ke Chen, Chen Change Loy, Shaogang Gong, and TaoXiang, “Feature mining for localised crowd counting,”inIn BMVC. ↩︎ ↩︎

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 6489
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章