A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition

論文:http://xxx.itp.ac.cn/abs/1901.05742
代碼:https://github.com/yuange250/video_pedestrian_attributes_recognition

1 綜述

本文是基於視頻的方法進行行人屬性識別的,所謂的視頻方法就是基於同一運動目標的序列輸入圖像,這在實際的業務場景中是很有必要的。因爲,基於單張圖像進行行人屬性分析的模型高度依賴輸入圖像的質量,如圖1所示,如果行人的某個關鍵部位被遮擋,那麼算法肯定無法正確的識別該部位對應的屬性。在實際應用中,行人屬性分析往往基於的是行人的追蹤結果,因此完全有獲取序列輸入的數據基礎。

在這裏插入圖片描述
本文作者的主要貢獻分爲兩部分,第一部分是對兩個已經存在的數據集進行了標註更新,第二部分是引入了時間注意力方法幫助提升行人屬性識別的準確率。

2 數據集

作者是對兩個行人重識別的數據集MARS和Duke MTMC-VideoReID進行了重新標註,之所以要重新標註的原因是:如圖3所示,同一個行人目標的運動過程,由於行人在持續的運動,可能某些屬性會出現,某些屬性會消失,因此,按照行人的ID進行屬性標註是不準確的,應該按照行人的軌跡進行屬性標註
在這裏插入圖片描述MARS數據集是對Market-1501數據集的擴充,包含來自於6個攝像頭的1261個人的20478條運動軌跡,平均每條運動軌跡包含60幀圖像;DukeMTMC-VideoReID是對DukeMTMC-ReID數據集的擴充,包含來自於八個攝像頭的1402個人的4832條軌跡,平均每條軌跡包含160幀圖像。

作者對MARS和DukeMTMC-VideoReID按照軌跡進行了重新標註,標註的屬性共有兩類14種,第一類是行爲屬性,第二類是表觀屬性。行爲屬性包括運動狀態(行走、站立、奔跑、騎車和various)、姿態(前方、側前方、側面、側後方、後方和various),表觀屬性共12種,如圖2所示。
在這裏插入圖片描述

3 時間注意力方法

時間注意力方法其實就是在各屬性判別的網絡上加一個關鍵幀選取的子網絡,也就是針對某一個屬性選取圖像序列中能給出最清晰的描述信息的關鍵幀,告訴模型依據這個關鍵幀的圖像進行該屬性的判別。 網絡結構如圖4所示:
在這裏插入圖片描述
訓練時的輸入圖像爲同一行人某條軌跡中隨機選取的T幅圖像,經骨幹網絡處理得到feature map後,分成兩個分支,一個分支進行行爲屬性(動作和姿態)的判別,另外一個分支進行表觀屬性(衣物顏色、類型等共12中)的判別。每一個分支中又是針對每一個子任務進行了一個帶有時間注意力機制的小網絡,具體來說就是特徵經過時間注意力網絡形成一個掩模,這個掩模表示時間軸上(也就是T幀圖像)中每一幀的權重係數,將其和每一幀的特徵進行相乘的操作,然後經過線性層後進行屬性分類。損失函數使用的交叉熵損失。時間注意力網絡用的是兩個級聯的一維卷積,表示在時間軸上進行卷積操作

測試時,對一個軌跡的序列圖像,可以將其分組,每組圖像數量等於T,每組分別進行前向推理,預測結果可以是多組結果的平均。

4 實驗

在這裏插入圖片描述從這副圖上可以看出,同一個軌跡中的不同幀對某個屬性學習的影響權重的確是不一致的,時間注意力機制就是要找到最合適的進行某個屬性判別的關鍵幀。

在這裏插入圖片描述
在這裏插入圖片描述CNN-RNN的方法更適合於進行動作識別,因爲考慮了連續的視頻幀之間的關係;基於單幅圖像進行識別在某些特別細節的屬性上可能略好。總體上來說,作者的方法更好。

在這裏插入圖片描述
Temporal Pooling是指ResNet50出來的特徵經卷積、池化操作後,直接使用一個線性層分類;separate channel是指把行爲類屬性和外觀類屬性分成兩個分支進行學習。可以看出作者最終使用的baseline + separated channels strategy + temporal attention strategy取得了最好的效果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章