VALSE Webinar 20200226 視頻行爲識別 Action Recognition 摘要

文章目錄

0. 前言

參考資料：
- 官方發佈的視頻：只有1小時。
- 非官方發佈的視頻：1小時40分，也不全。
- slides
提綱：
- 複雜視頻序列的深度表徵與理解方法
  - 演講人：中國科學院深圳先進技術研究院 - 喬宇
  - 主要內容：行爲識別數據集、行爲識別早期方法（非深度學習+少量深度學習）、行爲識別最新進展。
- Spatial-temporal action detection with Long-term Information Integration
  - 演講人：上海交大 - 林巍嶢
  - 主要內容：視頻中行爲的時空定位，以及對應的方法。
- 就以下幾個議題進行討論
  - 行爲的主觀性、不平衡性、複合型討論
  - 視頻數據集的標註問題、算力問題
  - 目前已有的應用場景
  - 研究熱點、難點
我個人關注的點：
- 實時行爲識別落地還是非常困難，只能在特定場景下靠大量數據來實現。
- 數據生成可以考慮使用3D模型來構建模擬數據，效果也很好。
- Spatial-temporal action detection 的基本思路還挺有意思，只不過離應用還早得很。
- 關注兩個數據集：
  - human in action：多人場景下的時空行爲檢測，暫時關閉下載，要等9月份。
  - VIRAT：真實監控場景下的數據，可下載。

1. 複雜視頻序列的深度表徵與理解方法

1.1. 數據集

數據集來源的歷史發展：
- 實驗室收集。
- 電影、體育賽事視頻。
- 互聯網視頻（如youtube）。
目前常用的數據集：

1.2. 早期行爲識別方法

非深度學習方法
- 這類不太懂，就記錄幾個關鍵字吧。
- 視頻的時空興趣點和軌跡（2005/2011年的工作）
- 視頻的時空特徵（通過HoG/HoF/MBH等方法手工提取），2011年左右
- 視頻的中層表示，CVPR2013的工作
- 視頻特徵編碼（CVPR2014年的工作，應該是非深度學習中最好的）
早期深度學習方法：
- 簡單介紹三篇內容：
  - 斯坦福的這篇是CNN時空信息融合的一種嘗試，比較直接，效果一般。
  - 牛津這篇是雙流法的開端，使用了光流、RGB流同時使用。
  - Facebook這篇就更有意思了，直接把VGG網絡做成3D形式，即C3D。
  - 下面三篇的效果並沒有比之前的非深度學習的方法好。
- TDD（軌跡池化卷積特徵，2015）
  - 應該是深度學習+傳統方法的一次嘗試。
  - 感覺類似於RCNN，TDD也是把把提取特徵的工作交給CNN，其他基本上沒用深度學習的方法。
  - 第一篇全面超越傳統方法的論文。
- TRN（2016）
  - 目標解決的是對視頻序列建模以及使用深度學習方法處理。
    - 核心問題：視頻的數據量大，特徵維度很高，但深度學習的訓練受制於顯存和SGD算法
  - 這篇的主要思路是多段融合，就是吧視頻分爲多段，分別提取特徵後，最後融合結果。
  - 這篇文章應該沒有用到3D，是後面TSM的基礎。

1.3. 視頻行爲識別的新進展

3D卷積神經網絡
- I3D：3D CNN的一種，在C3D的基礎上引入了光流，將Inception結構轉換爲3D網絡。
- S3D/R(2+1)D：卷積時空分解，也就是說把 3*3*3 卷積分結果爲 1*3*3 + 3*1*1，這樣參數數量也會減少，運算也減少。
- CSN：3D分解模型，主要就是引入depthwise，減少計算量，提高性能。
- ARTNet：時空關係建模，即2D卷積用於提取特徵，但空間特徵無法提取，所以設計了一種結構用於獲取相鄰兩幀之間的信息。
- Non-local：時空跨度依賴模型，時間空間距離較遠特徵之間的關係進行建模。傳統CNN要做到這一點只能靠擴大感受域（這就代表參數增加）。
- SlowFast：快/慢兩條通道融合結果。
- TSM：面向3D任務的2D輕量化模型，全部使用2D卷積，對N, T, C, H, W上在T緯度上進行shift。
- SmallBigNet
Pose-Based行爲識別
- RPAN：CNN+RNN，對行爲的動態過程建模，把行爲識別與姿態估計結合，利用姿態變化引導RNN對行爲的動態過程進行建模。
- PA3D：把姿態信息作爲一種輸入，用3D網絡進行建模。一般先進行姿態估計，再將pose heat map編碼成圖像channel信息。
- ST-GCN：骨架+圖神經網絡，骨架本身是一張圖，骨架隨時間變化的也是一張圖，然後通過圖神經網絡建模。
- AS-GCN

1.4. 總結與展望

數據庫：更大規模，更精細，特定場景，特定物體。
網絡：3D網絡（時空效率較低）、長時序列、姿態（2D/3D）、運動、時空關係。
應用：智慧城市（異常行爲、長尾類別）、網絡視頻（開集、持續學習、生成模型）

2. 時空行爲檢測

原標題：Spatial-temporal action detection with Long-term Information Integration
視頻中行爲的時空定位（較新的研究議題）
工業界關注點
- 視頻網站：temporal detection，視頻摘要。
- 監控：spatial-temporal detection。
現有主要套路（與目標跟蹤類似）：
- 第一步：在每一幀上檢測可能出現行爲的區域。
- 第二步：時域中，對不同幀進行關聯。
現有工作的主要問題：
- 缺乏長期信息。
- 複雜度很高，因爲要對每一幀進行檢測，要求強大算力。
- 噪聲造成的影響很大（比如中間有一幀出錯，之後的都會受到影響）。
講者的工作：
- 添加長期信息。
- 選擇關鍵幀處理，這樣減少計算量也會減少噪聲的影響。
講者所在團隊花大價錢構建了數據集 Human in action
- 就是 Spatial-temporal action detection 的數據集，但已經關閉註冊啦。

3. 討論

3.1. 行爲的主觀性、不平衡性、複合型

概念
- 主觀性：每個人表現不同，不同人標註結果不同。
- 不平衡性：行爲千變萬化。
- 複合型：日常生活爲一系列簡單行爲組成的複雜性爲，同時包括周圍環境的變化。
喬：更精細的數據標定，與知識理解（知識驅動、知識圖譜）相結合，
林：
- hieratical的方法，就是多級分類。
- 視頻監控等場景中，對某幾類特別關注，唯一的方法就是增大數據量。增大數據量的一種方法是生成一些數據，特別是3D模型。
蔣：
- hieratical 會陷入泥潭，沒有好的答案。
- 兩個好的嘗試：分解名詞和動詞，劃分細粒度是應用驅動的。

3.2. 視頻數據集的標註問題、算力問題

喬：
- 設計高效3D卷積網絡
- 半自動標註，非監督方法標註，生成數據（遊戲、電影）
林：
- 真實數據標註沒有更好的辦法，3維模型生成（GAN不管用）。
- 3D網絡還在研究階段，還不成熟。
蔣：
- 無監督學習/弱監督學習標註，3d simulation生成。

3.3. 目前已有技術的應用場景

喬：
- 異常行爲/危險行爲檢測，目前還都比較困難。學術進展不代表工業界提高。
- 視頻推薦。
林：
- 視頻網站：視頻摘要+推薦，做得不錯。
- 監控：很難（以打架爲例），與推薦要求不一樣。
蔣：
- 必須結合一個具體問題進行處理。
- 趨勢：在線識別->預測未來。

3.4. 研究熱點、難點

喬：數據庫構建（要突破Internet的限制），高效backbone（短視頻/長時網絡），姿態/物品/時空信息監測。
林：通用性處理時空數據的backbone，具體應用上行爲時空監測/細粒度行爲(fine-gained)/骨架、目標技術（骨架提取好對行爲識別的提升很大，但目前在複雜場景下骨架提取還是有較大問題）。
蔣：視頻方向可能會有NAS（你的競爭對手不是人，而是大規模集羣），無標註/若標註數據處理的backbone，未來幀預測有較好效果，多模態的識別（如考慮到隱私，只有深度，沒有RGB），spatial-temporal 檢測，VIRAT 數據集。
王：
- 視頻backbone設計，相比圖像數據量大、冗餘性高，可能可以添加先驗。
- 弱監督算法（多模態，語音、視頻、文本）。
- 具體應用場景有不同框架，多人需要時空檢測，多人行爲合成羣體動作。

VALSE Webinar 20200226 視頻行爲識別 Action Recognition 摘要

文章目錄

0. 前言

1. 複雜視頻序列的深度表徵與理解方法

1.1. 數據集

1.2. 早期行爲識別方法

1.3. 視頻行爲識別的新進展

1.4. 總結與展望

2. 時空行爲檢測

3. 討論

3.1. 行爲的主觀性、不平衡性、複合型

3.2. 視頻數據集的標註問題、算力問題

3.3. 目前已有技術的應用場景

3.4. 研究熱點、難點

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

通過Http鏈接地址爬取有贊微信商城商品信息及下載至EXCEL

多人同時導出 Excel 幹崩服務器！新來的阿里大佬給出的解決方案太優雅了！

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

TensorRT C++ Samples(1) sampleMNIST

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源碼閱讀

Ubuntu Desktop 使用記錄

論文瀏覽(11) A Multigrid Method for Efficiently Training Video Models

論文瀏覽(10) Towards Real-Time Multi-Object Tracking

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結