行人屬性“Attribute Recognition by Joint Recurrent Learning of Context and Correlation”

應該是比較新的屬性學習文章了,ICCV2017。在監控場景中進行行人屬性的識別,主要遇到的挑戰是圖像質量差,外形變化及屬性可能在不同的空間位置,標記的訓練樣本少。論文提出JRL模型挖掘屬性上下文信息及屬性間相互關係提升識別準確率。JRL在一張行人圖像內學習屬性相關性,具體的說是屬性預測順序的相互關聯性。

解決屬性預測遇到挑戰的方法,一是使用屬性的相關性:如“女性”和“裙子”在一張行人圖像中出現的可能性大。二是使用視覺上下文信息協助屬性識別,如同一場景中不同人具有相同屬性。論文將行人之間的上下文信息及行人個體內部屬性關聯一起建模,學習一個一體化的網絡。提出了一個新的RNN 編碼-解碼網絡用於行人屬性預測。RNN模型探索了順序預測約束,挖掘潛在的更豐富的高階屬性相關性。自然語言語句預測就使用了詞間相關性。論文沒有使用人體part,監控場景中part比較難檢測到。

JRL是一個序列預測模型,將給定行人圖像轉換爲區域序列,屬性集轉換爲順序的列表。編碼器將固定長度的圖像區域序列映射到連續的特徵向量。遞歸的過程是對行人局部空間上下文進行序列編碼,及傳播區域間上下文信息,這成爲人體內部屬性上下文建模。此外,JRL加入了行人間相似度上下文,在訓練集中查找相似的圖像,編碼並使用相似度最大池化組合。這種融合的特徵標識用來初始化解碼器,解碼器將圖像特徵向量轉化爲可變長度的屬性序列。這種序列到序列的編碼及解碼過程使得高階及低階屬性相關學習成爲可能。此外,屬性是沒有具體位置的弱標記,探索了數據驅動的注意力機制找出屬性敏感的圖像區域,知道解碼器在這些位置提取特徵。

JRL
屬性預測是一個多標籤識別問題,JRL的結構如下圖所示:
這裏寫圖片描述
RNN 編碼-解碼網絡,RNN是包含內部隱含狀態hRd ,輸入時可變長度的序列X=(x1,...,xt,...) ,在時間點t,RNN取出X中一個元素xt ,更新其隱含狀態:
ht=ϕθ(ht1,xt)
其中ϕθ 是非線性激活函數,使用LSTM作爲遞歸神經元,LSTM是有效的解決梯度消失及發散問題的方法,在時間點t,LSTM使用輸入xt 和上一狀態ht1Rdct1Rd 更新:
這裏寫圖片描述
1. 人體內屬性上下文
使用LSTM編碼器對每個行人圖像進行行人內屬性建模,將輸入圖像映射到固定長度的特徵向量。具體的說,輸入圖像分割成m個水平條狀區域,形成自上而下的區域序列。編碼器順序讀取圖像區域,根據公式(2)更新LSTM編碼器隱含狀態,編碼器的隱含狀態z=henm 可認爲是整個序列的加和表示。z是上下文向量。
2. 行人間相似度上下文
補償圖像質量差的問題,從訓練圖像視覺上相似的圖像中挖掘附加信息。搜索前k個相似的圖像,對於每個相似的圖像Iai ,計算上下文向量zai 。將所有的向量作爲附加信息集成到z:
z=max(z,za1,...,zak)
圖像表示及相似度搜索:
說明了LSTM編碼器的輸入:使用ImageNet初始化AlexNet,微調,對於給定行人圖像,將第5圈基層的激活分解爲m個水平區域,每個池化到向量。相似度搜索是FC7層的輸出,L2距離。
3. 屬性間相關性
行人圖像的屬性標記序列由所有屬性固定的順序生成。使用z 初始化解碼器隱含狀態hde1 ,這是將行人間相似上下文引入解碼過程。與解碼部分相比,hdetyt 與上一輸出yt1 有關,挖掘高階屬性相關性,即:
hdet=ϕθ(hdet1,yt1,z)
4. 屬性注意力
JRL中加入注意力機制,關注輸入區域序列中最相關的部分。通過在編碼輸出增加一個結構實現,特別的,對輸入圖像序列S=(s1,...,sm) 編碼器現有一個結構化的輸出表示,即,
Hen=(hen1,...,heni,...,henm)
heni 表示第i個區域的上下文表示,屬性注意力的目標是,在解碼器預測屬性時找到一個優化的權值分佈wt=(wt,1,...,wt,i,...,wt,m) ,即:
這裏寫圖片描述
逐步上下文標識zt 重新計算爲:
這裏寫圖片描述
沒有注意力時,z是常值。
Word Embedding將上一時的屬性預測作爲下一次預測的遞歸反饋。

訓練
屬性預測的順序是10個順序的集成。對每個屬性順序,訓練一個特定的JRL。爲防止噪聲由RNN傳播到CNN,兩者獨立訓練。majority voting獲得最終的結果。

實驗結果
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章