VALSE Webinar 20200226 視頻行爲識別 Action Recognition 摘要


0. 前言

  • 參考資料:
  • 提綱:
    • 複雜視頻序列的深度表徵與理解方法
      • 演講人:中國科學院深圳先進技術研究院 - 喬宇
      • 主要內容:行爲識別數據集、行爲識別早期方法(非深度學習+少量深度學習)、行爲識別最新進展。
    • Spatial-temporal action detection with Long-term Information Integration
      • 演講人:上海交大 - 林巍嶢
      • 主要內容:視頻中行爲的時空定位,以及對應的方法。
    • 就以下幾個議題進行討論
      • 行爲的主觀性、不平衡性、複合型討論
      • 視頻數據集的標註問題、算力問題
      • 目前已有的應用場景
      • 研究熱點、難點
  • 我個人關注的點:
    • 實時行爲識別落地還是非常困難,只能在特定場景下靠大量數據來實現。
    • 數據生成可以考慮使用3D模型來構建模擬數據,效果也很好。
    • Spatial-temporal action detection 的基本思路還挺有意思,只不過離應用還早得很。
    • 關注兩個數據集:
      • human in action:多人場景下的時空行爲檢測,暫時關閉下載,要等9月份。
      • VIRAT:真實監控場景下的數據,可下載。

1. 複雜視頻序列的深度表徵與理解方法

1.1. 數據集

  • 數據集來源的歷史發展:
    • 實驗室收集。
    • 電影、體育賽事視頻。
    • 互聯網視頻(如youtube)。
  • 目前常用的數據集:
    image_1eap022evju61i4r1s7p7ks4ak9.png-213.4kB

1.2. 早期行爲識別方法

  • 非深度學習方法
    • 這類不太懂,就記錄幾個關鍵字吧。
    • 視頻的時空興趣點和軌跡(2005/2011年的工作)
    • 視頻的時空特徵(通過HoG/HoF/MBH等方法手工提取),2011年左右
    • 視頻的中層表示,CVPR2013的工作
    • 視頻特徵編碼(CVPR2014年的工作,應該是非深度學習中最好的)
  • 早期深度學習方法:
    • 簡單介紹三篇內容:
      • 斯坦福的這篇是CNN時空信息融合的一種嘗試,比較直接,效果一般。
      • 牛津這篇是雙流法的開端,使用了光流、RGB流同時使用。
      • Facebook這篇就更有意思了,直接把VGG網絡做成3D形式,即C3D。
      • 下面三篇的效果並沒有比之前的非深度學習的方法好。
      • image_1eap3r1hig9ss9m1gcj1h5tr3mm.png-566.9kB
    • TDD(軌跡池化卷積特徵,2015)
      • 應該是深度學習+傳統方法的一次嘗試。
      • 感覺類似於RCNN,TDD也是把把提取特徵的工作交給CNN,其他基本上沒用深度學習的方法。
      • 第一篇全面超越傳統方法的論文。
    • TRN(2016)
      • 目標解決的是對視頻序列建模以及使用深度學習方法處理。
        • 核心問題:視頻的數據量大,特徵維度很高,但深度學習的訓練受制於顯存和SGD算法
      • 這篇的主要思路是多段融合,就是吧視頻分爲多段,分別提取特徵後,最後融合結果。
      • 這篇文章應該沒有用到3D,是後面TSM的基礎。

1.3. 視頻行爲識別的新進展

  • 3D卷積神經網絡
    • I3D:3D CNN的一種,在C3D的基礎上引入了光流,將Inception結構轉換爲3D網絡。
    • S3D/R(2+1)D:卷積時空分解,也就是說把 3*3*3 卷積分結果爲 1*3*3 + 3*1*1,這樣參數數量也會減少,運算也減少。
    • CSN:3D分解模型,主要就是引入depthwise,減少計算量,提高性能。
    • ARTNet:時空關係建模,即2D卷積用於提取特徵,但空間特徵無法提取,所以設計了一種結構用於獲取相鄰兩幀之間的信息。
    • Non-local:時空跨度依賴模型,時間空間距離較遠特徵之間的關係進行建模。傳統CNN要做到這一點只能靠擴大感受域(這就代表參數增加)。
    • SlowFast:快/慢兩條通道融合結果。
    • TSM:面向3D任務的2D輕量化模型,全部使用2D卷積,對N, T, C, H, W上在T緯度上進行shift。
    • SmallBigNet
  • Pose-Based行爲識別
    • RPAN:CNN+RNN,對行爲的動態過程建模,把行爲識別與姿態估計結合,利用姿態變化引導RNN對行爲的動態過程進行建模。
    • PA3D:把姿態信息作爲一種輸入,用3D網絡進行建模。一般先進行姿態估計,再將pose heat map編碼成圖像channel信息。
    • ST-GCN:骨架+圖神經網絡,骨架本身是一張圖,骨架隨時間變化的也是一張圖,然後通過圖神經網絡建模。
    • AS-GCN

1.4. 總結與展望

  • 數據庫:更大規模,更精細,特定場景,特定物體。
  • 網絡:3D網絡(時空效率較低)、長時序列、姿態(2D/3D)、運動、時空關係。
  • 應用:智慧城市(異常行爲、長尾類別)、網絡視頻(開集、持續學習、生成模型)

2. 時空行爲檢測

  • 原標題:Spatial-temporal action detection with Long-term Information Integration
  • 視頻中行爲的時空定位(較新的研究議題)
  • 工業界關注點
    • 視頻網站:temporal detection,視頻摘要。
    • 監控:spatial-temporal detection。
  • 現有主要套路(與目標跟蹤類似):
    • 第一步:在每一幀上檢測可能出現行爲的區域。
    • 第二步:時域中,對不同幀進行關聯。
  • 現有工作的主要問題:
    • 缺乏長期信息。
    • 複雜度很高,因爲要對每一幀進行檢測,要求強大算力。
    • 噪聲造成的影響很大(比如中間有一幀出錯,之後的都會受到影響)。
  • 講者的工作:
    • 添加長期信息。
    • 選擇關鍵幀處理,這樣減少計算量也會減少噪聲的影響。
  • 講者所在團隊花大價錢構建了數據集 Human in action
    • 就是 Spatial-temporal action detection 的數據集,但已經關閉註冊啦。

3. 討論

image_1eapmb6pj1sasnisf2ttvc80313.png-759.3kB

3.1. 行爲的主觀性、不平衡性、複合型

  • 概念
    • 主觀性:每個人表現不同,不同人標註結果不同。
    • 不平衡性:行爲千變萬化。
    • 複合型:日常生活爲一系列簡單行爲組成的複雜性爲,同時包括周圍環境的變化。
  • 喬:更精細的數據標定,與知識理解(知識驅動、知識圖譜)相結合,
  • 林:
    • hieratical的方法,就是多級分類。
    • 視頻監控等場景中,對某幾類特別關注,唯一的方法就是增大數據量。增大數據量的一種方法是生成一些數據,特別是3D模型。
  • 蔣:
    • hieratical 會陷入泥潭,沒有好的答案。
    • 兩個好的嘗試:分解名詞和動詞,劃分細粒度是應用驅動的。

3.2. 視頻數據集的標註問題、算力問題

  • 喬:
    • 設計高效3D卷積網絡
    • 半自動標註,非監督方法標註,生成數據(遊戲、電影)
  • 林:
    • 真實數據標註沒有更好的辦法,3維模型生成(GAN不管用)。
    • 3D網絡還在研究階段,還不成熟。
  • 蔣:
    • 無監督學習/弱監督學習標註,3d simulation生成。

3.3. 目前已有技術的應用場景

  • 喬:
    • 異常行爲/危險行爲檢測,目前還都比較困難。學術進展不代表工業界提高。
    • 視頻推薦。
  • 林:
    • 視頻網站:視頻摘要+推薦,做得不錯。
    • 監控:很難(以打架爲例),與推薦要求不一樣。
  • 蔣:
    • 必須結合一個具體問題進行處理。
    • 趨勢:在線識別->預測未來。

3.4. 研究熱點、難點

  • 喬:數據庫構建(要突破Internet的限制),高效backbone(短視頻/長時網絡),姿態/物品/時空信息監測。

  • 林:通用性處理時空數據的backbone,具體應用上行爲時空監測/細粒度行爲(fine-gained)/骨架、目標技術(骨架提取好對行爲識別的提升很大,但目前在複雜場景下骨架提取還是有較大問題)。

  • 蔣:視頻方向可能會有NAS(你的競爭對手不是人,而是大規模集羣),無標註/若標註數據處理的backbone,未來幀預測有較好效果,多模態的識別(如考慮到隱私,只有深度,沒有RGB),spatial-temporal 檢測,VIRAT 數據集。

  • 王:

    • 視頻backbone設計,相比圖像數據量大、冗餘性高,可能可以添加先驗。
    • 弱監督算法(多模態,語音、視頻、文本)。
    • 具體應用場景有不同框架,多人需要時空檢測,多人行爲合成羣體動作。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章