Multi-scale Convolutional Neural Networks for Crowd Counting

論文翻譯

ABSTRACT

$~~~~~~$ 由於尺度的變化，靜態圖像的人羣計數是一個具有挑戰性的問題。最近，深度神經網絡被證明在這一任務中是有效的。然而，現有的基於神經網絡的方法往往使用多列多網絡模型來提取尺度相關特徵，這使得優化和計算變得更加複雜。爲此，我們提出了一種新的多尺度調節體積神經網絡(MSCNN)來進行單幅圖像的衆包計算。該網絡以多尺度團爲基礎，能夠在單列結構中生成與尺度相關的特徵，從而獲得較高的人羣計數性能，在實際應用中具有較高的精度和成本效益。實驗結果表明，該方法在參數數目少的情況下，在精度和魯棒性方面均優於現有方法。

1. INTRODUCTION

$~~~~~~$ 人羣計數的目的是估計從監控攝像頭收集到的圖像或視頻中聚集的人數。在旅遊景點和公共集會等情況下，過度擁擠會導致人羣擁擠、堵塞甚至踩踏。利用計算機視覺技術進行準確、魯棒的人羣計數估計對公共安全具有重要意義。
$~~~~~~$ 現有的人羣計數方法通常可分爲兩類：基於檢測的方法和基於迴歸的方法。
$~~~~~~$ 基於檢測的方法通常假定可以通過使用給定的視覺對象檢測器來檢測和定位人羣圖像上的每個人，並通過累積每個檢測到的人來獲得計數結果。然而，這些方法需要大量的計算資源，在實際場景中往往受到人員遮擋和複雜背景的限制，魯棒性和準確性相對較低。
$~~~~~~$ 基於迴歸的方法直接從圖像中迴歸人羣計數。Chan等人使用手工功能將人羣計數任務轉換爲迴歸問題。隨後的工作提出了更多與人羣相關的特徵，包括基於片段的特徵，基於結構的特徵和局部紋理特徵。 Lempit-sky等提出了一種基於密度的算法，該算法通過整合估計的密度圖來獲得計數。最近，深度卷積神經網絡已被證明可以有效地進行人羣計數。Zhang等人提出了卷積神經網絡（CNN），以替代地學習人羣密度和人羣計數。Wang等人直接使用基於CNN的模型將圖像補丁映射到其人員計數值。這些改進算法能較好地抑制尺度變化問題，但仍存在兩個不足：

多列/網絡需要預先訓練的單網絡來進行全局優化，這比端到端訓練更爲複雜。
多列/網絡引入了更多的參數以消耗更多的計算資源，這使其難以實際應用。
$~~~~~~$ 本文中，我們提出了一種多尺度卷積神經網絡（MSCNN）來提取與尺度相關的特徵。我們沒有引入更多的列或網絡，而是僅引入了與樸素的Inception模塊相似的具有不同內核大小的多尺度Blob。我們的方法在使用少量參數的情況下，優於ShanghaiTech和UCFCC50數據集上的最新方法。

2. MULTI-SCALE CNN FOR CROWD COUNTING

$~~~~~~$ 由於視角失真，人羣圖像通常由各種大小的人物像素組成。單網絡很難用相同大小的內核組合來應對規模變化。在一項工作中，提出了一個Inception模塊來處理各種規模的視覺信息，並將其彙總到下一個階段。出於此目的，我們設計了一個多尺度卷積神經網絡（MSCNN），以從原始圖像中學習與尺度相關的密度圖。

2.1. Multi-scale Network Architecture

$~~~~~~$ MSCNN的概述如圖1所示，包括特徵重映射，多尺度特徵提取和密度圖迴歸。第一卷積層是傳統的卷積層，具有單個大小的內核以重新映射圖像特徵。多尺度斑點（MSB）是一種類似Inception的模型（如圖2所示），用於提取與尺度相關的特徵，它由多個具有不同內核大小（包括9×9、7×7、5×5和 3×3）。多層感知器（MLP）卷積層用作像素級完全連接，它具有多個1×1卷積濾波器以使密度圖迴歸。整流線性單位（ReLU）在每個卷積層之後應用，用作除最後一層之外的先前卷積層的激活函數由於密度圖中的值始終爲正，因此在最後一個卷積層之後添加ReLU可以增強密度圖的恢復。表1列出了詳細的參數設置。

2.2. Scale-relevant Density Map

$~~~~~~$ 根據Zhang等人的方法，我們直接從輸入圖像中估計人羣密度圖。爲了生成高質量的比例尺相關密度圖，比例尺自適應內核是當前的最佳選擇。對於圖像的每個頭部註釋，我們將其表示爲增量函數 $δ(x-x_i)$ ，並使用高斯核 $G_σ$ 描述其分佈，以便可以將密度圖表示爲 $F(x)= H(x)*G_σ(x)$ ，最後累加到人羣計數值。如果我們假設人羣均勻分佈在地平面上，則頭部 $x_i$ 及其最近的10個註解之間的平均距離 $d_i$ 通常可以表徵使用 Eq(1) 的透視效應引起的幾何變形，其中 $M$ 是總數圖像中的頭部註釋，我們根據經驗將 $β= 0.3$ 固定。

2.3. Model Optimization

$~~~~~~$ 模型的輸出映射到密度圖，歐幾里得距離用於測量輸出特徵圖和相應地面真實性之間的差異。需要優化的損失函數定義爲 Eq(2)，其中 $Θ$ 代表模型的參數，而 $F(X_i; Θ)$ 代表模型的輸出。

3. EXPERIMENTS

$~~~~~~$ 我們評估了多尺度卷積神經網絡（MSCNN）在兩個不同的數據集上的人羣計數，其中包括ShanghaiTech和UCFCC50數據集。實驗結果表明，我們的MSCNN在準確性和魯棒性方面均優於最新方法,參數要少得多。所有卷積神經網絡都基於Caffe進行訓練。

3.1. Evaluation Metric

$~~~~~~$ 根據現有的最先進的方法，我們使用絕對誤差(MAE)，平均平方誤差(MSE)和神經網絡參數的數量(PARAMS)來評估測試數據集的性能。在Eq.(3)和Eq.(4)中定義了MAE和MSE。

這裏的 $N$ 代表測試數據集中的圖像總數， $z_i$ 和 $\hat{z}_i$ 分別是該圖像的地面真實性和估計值。通常，MAE，MSE和PARAMS可以分別表示一種方法的準確性，魯棒性和計算複雜性。

3.2. The ShanghaiTech Dataset

$~~~~~~$ ShanghaiTech數據集是大規模人羣計數數據集。它包含1198個帶註釋的圖像，共330,165人。數據集由兩部分組成：PartA具有從Internet爬網的482張圖像和PartB具有從繁忙的街道拍攝的716張圖像。之後，它們都被分爲具有300張圖像的訓練集和具有其餘圖像的測試集。

3.2.1. Model Training

$~~~~~~$ 爲了確保有足夠的數據用於模型訓練，請通過裁剪每個圖像中的9個小塊並將其翻轉來進行數據增強。我們只需將9個裁剪點固定爲上，中和下，並結合左，中和右即可。每個補丁是原始大小的90％。
$~~~~~~$ 爲了便於與MCNN體系結構進行比較，該網絡的設計類似於MCNN的最大專欄，但使用MSB，其詳細設置在表1中進行了描述。所有卷積核均使用高斯權重設置標準偏差爲0.01進行初始化。如第2.3節所述，我們使用SGD優化，動量爲0.9，重量衰減爲0.0005。

3.2.2. Results

$~~~~~~$ 我們將我們的方法與ShanghaiTech數據集上的4種現有方法進行比較。 LBP + RR方法使用LBP功能在計數值和輸入圖像之間迴歸函數。張等設計了一個卷積網絡，以從原始像素中迴歸密度圖和人羣計數值。建議使用多列CNN來估計人羣計數值（MCNN-CCR）和人羣密度圖（MCNN）。
$~~~~~~$ 在表2中，結果表明我們的方法在ShanghaiTech數據集上達到了最先進的性能；此外，應該強調的是，我們的參數數量遠遠少於其他兩種基於CNN的算法。MSCNN使用了大約 7 X 與最新方法（MCNN）相比，參數更少，具有更高的準確性和魯棒性。

3.3. The UCFCC50 Dataset

$~~~~~~$ UCFCC50數據集包含50個灰度圖像，共有63974個帶註釋的人。人數從94到4543，平均每人1280個人。我們將數據集平均分爲5個，以便每個分割包含10張圖像。然後，我們使用5倍交叉驗證來評估我們提出的方法的性能。

3.3.1. Model Training

$~~~~~~$ UCFCC50數據集最具挑戰性的問題是用於訓練的圖像數量有限，而圖像中的人數卻太大了。爲了確保足夠的訓練數據數量，我們執行數據增強策略，然後從每個圖像中隨機裁剪36個尺寸爲225×225的色塊，並像在Sec3.2.1中那樣翻轉它們。
$~~~~~~$ 我們使用5組訓練集來訓練5個模型。在所有5個模型都獲得相應驗證集的估計結果之後，才計算MAE和MSE。在訓練過程中，MSCNN模型的初始化與 ShanghaiTech 數據集上的實驗幾乎相同，只是將學習速率固定爲1e-7以確保模型收斂。

3.3.2. Results

$~~~~~~$ 我們將UCFCC50數據集上的方法與6種現有方法進行了比較。在一項工作中，手工特徵用於從輸入圖像中迴歸密度圖。在一項工作中,提出了三種基於CNN的方法來使用多列/網絡並在UCFCC50數據集上進行評估。
$~~~~~~$ 表3說明了我們的方法還可以在UCFCC50數據集上達到最新的性能。在這裏，我們的參數數量大約比CrowdNet模型少5倍，表明我們提出的MSCNN可以更準確，更可靠地工作。

4. CONCLUSION

$~~~~~~$ 在本文中，我們提出了一種用於人羣計數的多尺度卷積神經網絡（MSCNN）。與最近的基於CNN的方法相比，我們的算法可以使用基於多尺度斑點（MSB）的單個柱狀網絡從人羣圖像中提取與尺度相關的特徵。它是一種端到端的培訓方法，不需要進行多列/網絡預培訓工作。我們的方法可以以更少的參數數量實現更準確，更強大的人羣計數性能，使其更可能擴展到實際應用中。

《Multi-scale Convolutional Neural Networks for Crowd Counting》論文筆記

Multi-scale Convolutional Neural Networks for Crowd Counting

論文地址