TexturePose: Supervising Human Mesh Estimation With Texture Consistency


這個工作針對的是model-based human pose estimation. Pose estimation具體是指什麼? 是字面上的意思麼? pose是指姿勢麼? 還是關鍵點? 最近取得了較大進展的方法是從圖像中直接回歸parametric human body model的parameters的方法。 因爲圖像中沒有3D shape ground truth, 相關的方法依賴2D annotations 或者sophisticated architecture designs. 然後,他們就說其實natural image中有更多線索可以利用,而不需要getting more annotations or modifying the network architecture. 作者提出了一種更自然的監督形式,that利用 on the appearance constancy (一個人在不同幀/不同視角下外觀的一致性) of a person among different frames(or viewpoints). 這種看似微不足道且經常被忽視的線索,實際上,對於model-based pose estimation實際上大有幫助。作者利用的parametric model允許我們計算a texture map for each frame. 假設the texture of the person does not change dramatically between frames(其實對不同viewpoints應該也變化不大吧?) 他們用了一個新的texture consistency loss, which enfores that each point in the texture map has has the same texture value (紋理值是個什麼值?) across all frames. 因爲,the texture is transferred in this common texture map space, 因爲都在common texture map空間討論了,所以,no camera motion computation is necessary (無需相機運動的計算是什麼意思? 意思是,把viewpoint因素摘除去了?). 他們的方法可以解決multi-view image的問題。他們的方法不需要那麼多annotation, 同時,在model-based pose estimation方法中在多個數據集上取得了SOTA的效果。

就是用帶參數的human body model,然後迴歸它的參數來做

如何獲得的texture map

這塊這個CNN是用來estimate the shape of the person(咋不寫pose了?)

  1. 用CNN去estimate the shape of the person.
  2. Projecting shape on the image
  3. 在on the surface(3D mesh surface)上推斷每個點的visibility, 我們來構建texture map.
  4. 要基於重要的觀測,the appearance of the person remains constant, 把這個大前提作爲translates to a texture consistency loss, 強制兩個texture maps to be equal for all surface points VijV_{ij} that are visible in both image. 強制什麼相等,強制texture map中不是黑色的地方, 也就是在texture map裏的外觀相等,這是藉助texture map把appearance constancy用上了。
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.