一、CVPR2020的滿分oral文章。
二、作者:港中文的林達華團隊
三、提出了一個細粒度的用於視頻理解任務的數據集。具體的話就是行爲識別等,具體的論文講解的話原作者已經再知乎貼出來了:
https://zhuanlan.zhihu.com/p/130720627
四、大概瀏覽了一下主要通過這篇文章自己的收穫如下:
-
對粗粒度和細粒度的認識:
視頻數據集中的細粒度:在圖片中的粗粒度是比如區分貓和狗,細粒度就是區分狗是哪種狗;到視頻的動作中的話,具體而言就是更加細化的動作類別。 -
自己主要關注的就是這篇文章最後分析中討論的幾個問題以及挖的坑:
(1)係數採樣和密集採樣:幀幀有用,幀多勢衆
(2)時域信息的重要性:這是一個討論了很久的主題,如何對視頻中信息進行時序建模時非常重要的:這裏分別用TRN和TSM來對時序信息的重要性進行了說明,比如TSM當用3frame進行訓練但是,測試用五幀的時候效果還好,但是當測試的幀數再增加的時候,效果明顯下將,說明模型學習的時序建模能力也就被卡在了三五幀的樣子;
(3)在Kinetic上與訓練的參與在新數據集上的作用也不大,說明之前的數據集都是比較粗粒度且依賴場景的,這個數據集更加關注動作本身!
- 值得思考的問題:
(1)怎麼解決密集、快速的運動? ------用今年TPN提到的feature level的SlowFast方案可行嗎?
(2)在空間語義上接近的比較細微的差別該如何解決?
(3)比較複雜的時域動態線索,
(4)基本的推理能力
(5)新數據集下的:提升採樣率但保證運行效率?更高效的時序建模能力?更關注動作本身的數據集上空間信息還重要嗎?有多重要?或者怎麼讓其起到更有效的作用?
這些都值得思考。
要是有人能和我討論商量就好了,唉~