【姿態估計文章閱讀】Structured Feature Learning for Pose Estimation

一、年份2016、港中文的文章

二、代碼https://github.com/chuxiaoselena/StructuredFeature 用的是caffe,可視化出來的結構比較複雜不好展示,就不放圖片了

三、核心思想:

       利用雙向結構的樹,優化網絡對於結果的預測。也就是預測手肘的時候可以用上手腕和肩膀的信息。文章把這個用信息體現在feature map的使用上,並且採用“卷積實現“幾何變換””,把用於支撐手腕預測的那部分feature map經過“幾何變換卷積”之後增強手肘的feature map的響應。

      這裏的feature map和現在的大多數模型不同,這裏的模型比如VGG的fc6輸出是4096,然後分成幾個組每個組負責預測一個關鍵點。所以每個組之間的feature map是相互獨立,但是這個層之前的前面所有層是共享特徵的。(這個做法,基本現在不採用了)

       貢獻:

        1、提出了一個端到端姿態學習框架,利用上豐富的人體結構信息

        2、“幾何變換卷積”可以有效的學習“相鄰關鍵點之間的聯繫”

        3、雙向的樹狀結構,這個主要也是配合1和2的

四、思想上如何整合多個feature map去提升某個目標關鍵點

                      

       文章作者說,之所以要用上“幾何變換卷積”,因爲直接把“用於預測手腕的feature map” 加上 “用於預測手肘的feature map”,存在這空間上的位置差,理論上在“檢測到了手小臂後,手肘應該就在不遠處了,那麼可以利用“手小臂去預測手肘”;因此把通過“手小臂預測手肘的信息”結合上“直接預測手肘的信息”可以達到信息強化的效果”。

        當然,爲什麼不直接concate這兩部分信息,然後通過卷積自己去學習?這個問題作者沒有說,但是我認爲這個當然可以,但是這種學習方式是隱式的,我們無法保證這個隱層具體完成了什麼功能!這就會導致“曲線救國”。不如直接逼迫模型這麼去做!

       問題又來了,上圖中的“learned kernel”不還是普通卷積嗎?不還是通過隱式的學習?這個我也覺得,不知道作者是如何保證這個卷積核確實是在按照“幾何變換”的想法在工作的,所以我決定發個郵件問一問!但是從上圖的可視化結果來看f->g這個過程來看,確實是完成了這個功能!(我覺得很有可能是這部分是完成了利用手小臂預測手肘的功能)

五、樹狀結構定義

      樹狀結構的定義主要是爲了,決定那部分信息可以經過 “四”所說的這個過程來強化另一部分

       這張圖其實一目瞭然了,兩個箭頭指向同一個節點的時候使用的“加法”,但是最後一部分預測的時候,紅藍兩個箭頭指向同一個預測圖採用的“concate”。

       “加法”和“concate”在網絡體現出了不同的功能成分,加法是用來強化某個信息,concate是組合上某個信息,這裏最後之所以用concate是因爲紅藍色箭頭在“預測”那部分都是來自同一個關鍵點的不同樹。

六、實驗結果,在當年有着不小的提升

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章