NeXt VLAD多模態視頻分類

NetVLAD最初是用於位置識別中聚合空間表達,發現比常規的時間模型(LSTM/GRU)用於聚合視覺和聽覺特徵任務更有效、更快。Net VLAD主要的一個缺點是特徵維度高,基於這種特徵的大的分類模型需要幾百百萬的參數。例如,一個Net VLAD網絡有128個聚類,特徵2048維,那麼作爲向量就是262144維。後面的全連接層是2048維度的輸出,那麼將有537M的參數。這種低效的參數將使得模型很難優化,且容易過擬合。

爲了解決上述問題,受ResNeXt啓發,開發了新的網絡結構NeXt VLAD。與NetVLAD不同的是,輸入的特徵在聚合及編碼之前用attention分解成一組相對低緯度的向量。潛在的假設是一個視頻幀可能有多個目標,在編碼之前分解成幀級特徵對模型產生更簡單的視頻表達是有益的。NeXtVLAD模型收斂更快,且能阻止過擬合。

下面是NeXt VLAD結構圖:

輸入xi向量先經過線性FC全連接層擴展成λN維度,λ設定爲2,波浪表示reshape操作,從(M,λN)到(M,G,λN/G)

其中的G是羣組數。

[具體做法可以參考阿里優酷的做法]

 

另外有相關問題可以加入QQ羣討論,不設微信羣

QQ羣:868373192 

語音圖像視頻深度-學習羣

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章