異常事件檢測綜述 1 數據集 2 主流異常事件檢測算法 1 主流異常事件檢測算法

1 數據集

異常事件檢測根據場景不同,學術界開源了多種數據集,如下表所示。

表3-1異常事件檢測數據集

該領域應用最廣泛,常作爲benchmark的數據集爲UCSD Pedestrian,Avenue,ShanghaiTec數據集,下文進行詳述。

1.1 UCSD Pedestrian 數據集

UCSD行人數據集是視頻異常事件檢測研究中使用最廣泛的主流數據集之一,它分爲UCSD Ped1和UCSD Ped22個數據集,是從加州大學聖地亞哥分校2個不同地點的人行道視頻監控中收集而來。數據集中,走路的行人被視爲正常事件,而在人行道中出現的其他移動物體則被視爲異常事件,例如在人行道上騎自行車、滑滑板、推手推車、駕駛汽車等。行人在非人行道區域(例如草坪)行走也被視作異常事件。此外,這2個數據集包含大量視頻前景物體相互遮擋的擁擠場景,尤其是行人的遮擋,增加了檢測異常事件的難度。測試集均提供了像素級別的標註,即在每個視頻幀上標註出了異常像素。數據集示例見下圖。

圖3-2 UCSD Ped1和UCSD Ped2正常/異常示例

1.2 Avenue數據集

Avenue數據集採集自香港中文大學校內一個走廊的監控攝像機。在此視頻數據集中,行人在走廊上按正常方向行走是正常事件,而在走廊上扔書包、灑紙片、奔跑、推自行車等各種類型的行爲被當成異常事件。爲了接近現實世界中的實際情況,Avenue數據集的測試視頻中會發生一些輕微的相機抖動。數據集示例見下圖。

圖3-3 Avenue數據集正常/異常示例

1.3 ShanghaiTec數據集

ShanghaiTec數據集的數據量大於UCSD Ped和Avenue數據集,與其他數據集只包含一個固定的攝像頭採集視頻不同,ShanghaiTec數據集一共包含了13個有不同光照條件和攝像頭角度的場景,這使其成爲現有benchmark中最具挑戰性的數據集之一。數據集示例見下圖。

圖3-4 ShangTec數據集正常/異常示例

2 主流異常事件檢測算法

基於深度學習的主流異常事件檢測算法採用半監督學習思想,即僅對正常樣本進行學習,測試時實現對於正常樣本與異常樣本的區分。具體可分爲基於重建與基於預測兩大流派。

常見異常事件檢測方法訓練/測試流程見下圖。在訓練階段,需要製作數據集完成模型的訓練。數據集的製作需對攝像頭傳輸的視頻流進行解碼,形成視頻格式的文件。進而將視頻逐幀抽幀保存爲圖像文件。對圖像進行標註,一般僅需要區分視頻幀屬於正常或異常即可,無需進行更細粒度的異常類別區分,亦無需進行目標檢測或語義分割形式的標註。模型的訓練只使用數據集中正常的視頻幀圖像對模型進行訓練,使模型具備對正常圖像的重建能力,或者具備對正常視頻幀的預測能力。訓練過程中可通過數據集驗證模型性能,方法爲使用模型對數據集中未參與訓練的正常圖像及異常圖像進行推理,得到分類性能。在測試階段,對實際場景下攝像頭傳輸的視頻流進行解碼,根據一定的規則進行抽幀,將抽幀後的圖像送入異常檢測模型以判斷該幀圖像是否包含異常事件。

圖4-1 常見異常事件檢測方法訓練/測試流程

基於重建方法主要通過自動編碼器(Autoencoder,AE)將正常圖像映射到隱空間,映射爲低維向量,再將其重建爲圖像。該類方法均假設模型僅能獲得對於正常樣本的重建能力,而不具備對於異常樣本的重建能力,根據正常樣本與異常樣本的重建效果差異實現二者區分。由於該過程本質上是對圖像的壓縮與重建,爲了獲得良好的重建效果,模型將致力於提取圖像更本質的表徵,有助於更好的學習圖像特點。基於預測方法認爲AE的泛化能力過強,並且存在恆等映射現象,導致其對異常圖像也具有較好的重建能力。改爲通過學習正常視頻的部分幀率,預測其後續幀率圖像的方法解決上述缺點。該類方法假設模型只能實現對正常視頻片段的預測,而不具備預測異常事件視頻幀率的能力,通過預測幀與實際幀的差異判別正常與異常樣本。 下文中4.1-4.3爲基於重建的異常檢測方法,4.4-4.5爲基於重建的異常檢測方法。

1 主流異常事件檢測算法

基於深度學習的主流異常事件檢測算法採用半監督學習思想,即僅對正常樣本進行學習,測試時實現對於正常樣本與異常樣本的區分。具體可分爲基於重建與基於預測兩大流派。

常見異常事件檢測方法訓練/測試流程見下圖。在訓練階段,需要製作數據集完成模型的訓練。數據集的製作需對攝像頭傳輸的視頻流進行解碼,形成視頻格式的文件。進而將視頻逐幀抽幀保存爲圖像文件。對圖像進行標註,一般僅需要區分視頻幀屬於正常或異常即可,無需進行更細粒度的異常類別區分,亦無需進行目標檢測或語義分割形式的標註。模型的訓練只使用數據集中正常的視頻幀圖像對模型進行訓練,使模型具備對正常圖像的重建能力,或者具備對正常視頻幀的預測能力。訓練過程中可通過數據集驗證模型性能,方法爲使用模型對數據集中未參與訓練的正常圖像及異常圖像進行推理,得到分類性能。在測試階段,對實際場景下攝像頭傳輸的視頻流進行解碼,根據一定的規則進行抽幀,將抽幀後的圖像送入異常檢測模型以判斷該幀圖像是否包含異常事件。

基於重建方法主要通過自動編碼器(Autoencoder,AE)將正常圖像映射到隱空間,映射爲低維向量,再將其重建爲圖像。該類方法均假設模型僅能獲得對於正常樣本的重建能力,而不具備對於異常樣本的重建能力,根據正常樣本與異常樣本的重建效果差異實現二者區分。由於該過程本質上是對圖像的壓縮與重建,爲了獲得良好的重建效果,模型將致力於提取圖像更本質的表徵,有助於更好的學習圖像特點。基於預測方法認爲AE的泛化能力過強,並且存在恆等映射現象,導致其對異常圖像也具有較好的重建能力。改爲通過學習正常視頻的部分幀率,預測其後續幀率圖像的方法解決上述缺點。該類方法假設模型只能實現對正常視頻片段的預測,而不具備預測異常事件視頻幀率的能力,通過預測幀與實際幀的差異判別正常與異常樣本。 下文中4.1-4.3爲基於重建的異常檢測方法,4.4-4.5爲基於重建的異常檢測方法。

1.1 Learning Temporal Regularity in Video Sequences

本方法發表在CVPR2016,是使用AE重建視頻以實現異常事件檢測的先驅。該方法實現了2種深度自編碼器,基於手動特徵的自編碼器利用傳統特徵算子將提取的視頻特徵作爲AE的輸入,深度卷積自編碼器直接以整個原始視頻幀作爲輸入。論文發現直接將原始視頻幀作爲輸入的深度卷積自編碼器能夠獲得優良的異常檢測性能。啓發了後續的重建類方法。模型結構見下圖所示。


基於手動特徵的自編碼器以視頻幀的梯度方向直方圖(HOG)和光流方向直方圖(HOF)作爲AE的輸入,輸出爲重建後的HOG和HOF,比較重建前後的特徵差異作爲判別異常的標準。編碼器網絡結構爲四層全連接網絡,神經元數量分別爲204、2000、100、500,輸出爲30維的向量,解碼器以此向量作爲輸入,模型結構與編碼器對稱。基於手動特徵的自編碼器模型結構見下圖所示。

卷積深度自編碼器以原始視頻幀作爲輸入,經過編碼與解碼後,直接輸出重建後的圖像。根據重建前後圖像的像素級差異作爲判別異常的標準。編碼器由三層卷積和兩層池化組成,以10幀2272271的圖像作爲模型輸入,第一層卷積核設置爲1111,輸出featuremap爲5125555,第一層池化層步長爲22,輸出featuremap爲5122727,第二層卷積核設置爲55,輸出featuremap爲2562727,第二層池化步長爲22,輸出featuremap爲2561313,第三層卷積核設置爲33,輸出12813*13。解碼器結構與編碼器對稱,採用反捲積代替卷積操作。經過本文的實驗驗證,以及後續深度學習在自編碼器領域的發展,均表明以圖像作爲輸入輸出進行自動特徵學習的自編碼器性能優於傳統基於手動特徵提取的自編碼器。卷積自編碼器成爲後續異常事件檢測方法中的主流模型。基於卷積深度自編碼器模型結構見下圖所示。

1.1 MemAE

MemAE爲2019年發表在ICCV的論文,是重建類方法中第一篇引入記憶模塊(Memory module)的方法。傳統重建類方法的一個明顯問題是AE的泛化能力過強,對於部分異常樣本依然具備較強的重建能力,導致模型對於正常與異常樣本的區分能力下降。MemAE方法基於記憶定位機制,將樣本在隱空間的表徵向量由正常樣本表徵向量進行表示。人爲的將正常/異常樣本在隱空間的表徵替換爲正常樣本的表徵,故重建效果更接近於正常樣本,導致異常樣本重建誤差較大,以此實現區分。方法示意圖如下。



圖 MemAE方法示意圖
MemAE的模型結構由AE與Memory module組成。對於Mnist數據集,編碼器由三層卷積組成,卷積核設置爲Conv2(3, 2, 32)- Conv2(3, 2, 16)-Conv2(3, 3, 8),解碼器由三層反捲積組成,卷積核設置爲Dconv2(3, 3, 16)-Dconv2(3, 2, 32)-Dconv2(3, 2, 1)。對於Cifar10數據集,編碼器由四層卷積組成,卷積核分別爲Conv2(3, 2, 64)-Conv2(3, 2, 128)-Conv2(3, 2, 128)-Conv2(3, 2, 256) ,解碼器由四層反捲積組成,卷積核分別爲 Dconv2(3, 2, 128)-Dconv2(3, 2, 128)-Dconv2(3, 2, 64)-Dconv2(3, 2, 3模型結構如下圖所示。



圖 MemAE模型結構
其中,經過編碼器(Encoder),輸入圖像x轉換爲空間向量z,在Memory module中,首先通過Memory Addressing將z轉換爲權重w,轉換公式見式1.

其中d函數爲cosin相似度,m爲記憶(Memory,M)中的正常樣本向量。
考慮到直接計算得到的w較爲冗餘,借用ReLU形式得到更稀疏的權重 。計算公式見式2.



最終,使用權重 與M相乘獲得新的隱空間向量 。可以理解爲輸入圖像的最終隱空間表徵向量是由原有的數個正常樣本的隱空間向量加權而來,故其經過解碼器(Decoder)重建後更像正常樣本,導致異常樣本的重建誤差較大。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章