Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks

團隊介紹

作者:Huogen Wang Pichao Wang Zhanjie Song Wanqing Li

論文發表於ICCVW2017上,Pichao Wang是澳大利亞University of Wollongong大學的Phd,去年就參加Chalearn2016@ICPR競賽了,取得了挺不錯的成績。本文不是今年他們最好成績對應的論文,感覺像是調參的副產品。

論文總結

本來是奔着segmentation去看的,沒想到如此簡單,本文的實驗部分也不充分,只給出了最終的結果,沒有中間模塊的對比實驗,差評。論文像是個技術報告,最大特點就是用了多個提取特徵的方法,以及不同的神經網絡,最後把各個網絡的結果融合在一起。(這好像是打比賽常用的技巧)另外文章的introduction和related work寫的不錯。

論文framework

網絡結構圖是的馮紹峯
- 圖1: 論文的總體框架

  • temporal segmentation: 利用RGB和Depth圖片分別微調訓練VGG16網絡(在ImageNet預訓練),進行二分類(動作和過渡)。在實際操作中,將標註的分界點周圍的8幀作爲過渡幀,其餘爲動作幀。這裏面明顯動作幀較多,存在數據不平衡問題,不知道他們是不是對動作幀進行下抽樣,減少動作幀數使其和過渡幀一致。
  • gesture recognition: 分爲對RGB和depth分別處理。
    • RGB: 利用之前的方法(Frequency-tuned salient region detection, CVPR2009)提取RGB的顯著性區域,論文中說這樣能消除背景的干擾。原始的RGB和顯著性區域的RGB區域分別訓練自己的C3D-CLSTM-SSP網絡。如下圖所示
      這裏寫圖片描述
    • depth, 利用rank pooling將一個序列的圖片壓縮爲一張包含運動信息的圖片(Dynamic image networks for action recognition,CVPR2016)DDIs, 和稍加一個變化的DMDI, 說是保留了更多的運動信息,之後分爲微調訓練ResNet-50

實驗

實驗只有一個最終結果,我實際想看到網絡四個分支分別起到多大作用,另外也沒有定量分析temporal segmentation的結果。最終實驗結果如下:
這裏寫圖片描述

總結

該論文分別使用了C3D, CLSTM, VGG16, ResNet50等經典網絡,平均融合各個方法,得到最終實驗結果。
得到的一點點啓發:

  1. 利用Frequency-tuned salient region detection可得到RGB圖片的顯著性區域,可以減少一定的噪聲干擾
  2. 利用rank pooling將depth的序列圖片壓縮爲一張運動圖,轉化爲2D-CNN的圖片分類問題。

補充

如果是面向應用的研究,例如手勢識別,如果能給出在特定計算平臺的運算速度就更好了。這樣能看算法是否有實際應用價值。

Reference

[1]:Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Computer vision and pattern recognition, 2009. cvpr 2009. ieee conference on. IEEE, 2009: 1597-1604.
[2]:Bilen H, Fernando B, Gavves E, et al. Dynamic image networks for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3034-3042.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章