Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks

團隊介紹

作者：Huogen Wang Pichao Wang Zhanjie Song Wanqing Li

論文發表於ICCVW2017上，Pichao Wang是澳大利亞University of Wollongong大學的Phd，去年就參加Chalearn2016@ICPR競賽了，取得了挺不錯的成績。本文不是今年他們最好成績對應的論文，感覺像是調參的副產品。

論文總結

本來是奔着segmentation去看的，沒想到如此簡單，本文的實驗部分也不充分，只給出了最終的結果，沒有中間模塊的對比實驗，差評。論文像是個技術報告，最大特點就是用了多個提取特徵的方法，以及不同的神經網絡，最後把各個網絡的結果融合在一起。（這好像是打比賽常用的技巧）另外文章的introduction和related work寫的不錯。

論文framework

- 圖1: 論文的總體框架

temporal segmentation: 利用RGB和Depth圖片分別微調訓練VGG16網絡（在ImageNet預訓練），進行二分類（動作和過渡）。在實際操作中，將標註的分界點周圍的８幀作爲過渡幀，其餘爲動作幀。這裏面明顯動作幀較多，存在數據不平衡問題，不知道他們是不是對動作幀進行下抽樣，減少動作幀數使其和過渡幀一致。
gesture recognition: 分爲對RGB和depth分別處理。
- RGB: 利用之前的方法（Frequency-tuned salient region detection, CVPR2009）提取RGB的顯著性區域，論文中說這樣能消除背景的干擾。原始的RGB和顯著性區域的RGB區域分別訓練自己的C3D-CLSTM-SSP網絡。如下圖所示
- depth, 利用rank pooling將一個序列的圖片壓縮爲一張包含運動信息的圖片（Dynamic image networks for action recognition，CVPR2016）DDIs, 和稍加一個變化的DMDI, 說是保留了更多的運動信息，之後分爲微調訓練ResNet-50

實驗

實驗只有一個最終結果，我實際想看到網絡四個分支分別起到多大作用，另外也沒有定量分析temporal segmentation的結果。最終實驗結果如下：

總結

該論文分別使用了C3D, CLSTM, VGG16, ResNet50等經典網絡，平均融合各個方法，得到最終實驗結果。
得到的一點點啓發：

利用Frequency-tuned salient region detection可得到RGB圖片的顯著性區域，可以減少一定的噪聲干擾
利用rank pooling將depth的序列圖片壓縮爲一張運動圖，轉化爲２D-CNN的圖片分類問題。

補充

如果是面向應用的研究，例如手勢識別，如果能給出在特定計算平臺的運算速度就更好了。這樣能看算法是否有實際應用價值。

Reference

[1]:Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Computer vision and pattern recognition, 2009. cvpr 2009. ieee conference on. IEEE, 2009: 1597-1604.
[2]:Bilen H, Fernando B, Gavves E, et al. Dynamic image networks for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3034-3042.

Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks

團隊介紹

作者：Huogen Wang Pichao Wang Zhanjie Song Wanqing Li

論文總結

論文framework

實驗

總結

補充

Reference

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

大齡程序員思考

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

nuget添加readme

在Ubuntu14.04安裝torch7筆記

小白在ubuntu14.04上利用putty訪問服務器

線性迴歸之代價函數除2m

ubuntu14.04安裝配置FFmpeg＋opencv-3.1.0＋python 調用opencv模塊

圖像直方圖均衡化次數不同，結果相同簡要說明

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結