【NeurIPS 2022】視頻動作識別,AFNet 用更低的成本接收更多數據

出品人:Towhee 技術團隊 顧夢佳

爲了避免大量的計算,現有的視頻動作識別方法通常會採樣幾幀來表示每個視頻,然而這往往會限制識別的性能。爲此,Ample and Focal Network(AFNet)提出兩個分支的結構,以用更少的計算量利用更多的視頻幀。在減少計算量的前提下,AFNet 依然能借助其中間特徵中的動態選擇強制執行隱式時序建模,成功實現更高的精度。此外,該方法還可以幫助用更低的成本減少空間冗餘。在五個公開的動作檢測數據集上進行大量實驗,AFNet 證明了其有效性和效率。

Architecture of AFNet

AFNet 雖然使用了更多視頻幀,但明智地從中提取信息以保持較低的計算成本。具體來說,該方法設計了一個雙分支結構,根據視頻幀的重要性進行區別對待。另外,它以自適應的方式處理特徵,以獲得提供強大的靈活性。Ample Branch 將以較低的分辨率和較小的通道尺寸處理所有的輸入特徵。它將所有的視頻幀作爲數據,通過壓縮計算獲得豐富的信息,並利用所提出的定位模塊爲 Focal Branch 提供指導。而 Focal Branch 壓縮時序大小以僅關注每個卷積塊的顯着幀。該分支只會針對導航模塊建議的顯着幀,計算其彩色特徵。兩個分支的結果在 AF 模塊的末尾自適應融合,防止信息丟失。

相關資料:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章