【論文筆記】Unsupervised Discovery of Object Landmarks as Structural Representations

paper:http://www.ytzhang.net/files/publications/2018-cvpr-lmdis-rep.pdf

slide:http://www.ytzhang.net/files/publications/2018-cvpr-lmdis-rep-slides.pdf

主要框架

 

整個運用了 autoencoder的思想,通過最小化重構誤差來優化encoder 和decoder,從而學習得到針對樣本輸入的抽象特徵表示。這種模型用無監督方式對高維數據的進行高效的特徵提取和特徵表示。簡化圖如下:

 

  1.  Landmark detector

(1)特徵點檢測器,每一個特徵點都有其對應的特徵點檢測器。Hourglass

獲得原始檢測分數圖(raw detection score map)得到R:

raw detection score map

(2)因爲這個原始分數是無界的,作者用softmax歸一化成概率,得到檢測置信度圖D,Dk就是D的第K個channel,是weight map,Dk(u,v) 是第k個channel中座標爲(u,v)的值。

normalized detection confidence map

(3)加權平均座標作爲第 k個特徵點的位置 (Xk,Yk),這個公式可以實現梯度反傳:可以實現從下游神經網絡通過特徵點座標向後傳播梯度。因爲Dk在實際中很少出現完全集中在單個像素中,或者完全均勻分佈這種情況。 

landmark coordinates:(Weighted coordinate mean)

 

 

2. Soft constrain

 爲了讓得到的特徵點有效,提出了約束:

(1) Concentration constraint,計算單個heatmap兩個維度的方差,使它們儘量小,這樣就可以儘量集中到一個點; 

(2)Separation constraint,使得每個channel得到的關鍵點儘量分開 


(3)Equivariance constraint,對輸入圖像做可控的擾動(放縮、旋轉等變化),要求對應的關鍵點位置產生相應變化,即具有不變性。

3、Local latent descriptors

因爲是autoencoder模型,還需要做decoder計算與原圖的重構誤差。要復原一個圖像只有landmarks是不夠的,需要一些其他的潛在表示作爲補充信息,避免得到的潛在信息覆蓋特徵點反應的圖像結構。因此只有關鍵點的信息不足以重建圖像,所以用了第二個encoder產生又一個feature map FF(通道數不是K+1)用於描述重構所需信息。然後每個關鍵點的heatmap作爲attention map乘上FF之後再做一個關鍵點相關的降維線性變換WkWk得到關鍵點對應的特徵描述fkfk,而且fkfk的維度比FF通道數少。把所有關鍵點的特徵合併得到f=(f1,f2,...,fk)f=(f1,f2,...,fk)。在此基礎上開始做decoder步驟。

(1)還是通過hourglass獲得特徵圖F,與檢測置信度圖D有相同的尺寸,F在所有的特徵點共享的特徵空間,它有 S個通道。

(2)在concentration costrain中,用一個高斯分佈(Dk槓)來將該channel對應的landmark突出出來,在這裏文章將它當做soft mask來用。用mask提取後再用一個linear operator(線性算子)來將這些feature map映射到一個更低維的空間。C < S

 

4、Landmark-based decoder

在encoder步驟中已經可以得到了關鍵點座標,以這個座標爲中心產生高斯分佈作爲R˜k,一起做channel的歸一化得到D˜。同時fk乘W˜k之後經過激活函數(文章用了LeakyReLU)再與D˜k相乘,把所有關鍵點對應的D˜k相加得到F˜,最後經過hourglass上採樣得到原圖大小輸出,計算重構誤差。 
(1)用以各個特徵點爲中心的各向同性高斯分佈的概率密度來獲得原始分數圖,將背景通道設置爲1(Rk+1槓=1)

(2)然後將R˜跨通道歸一化以獲得重構的檢測置信度圖

(3)fk是對應的landmark描述符,通過操作符Wk槓和激活函數(作者這裏用的是Leaky-ReLU)將它轉換成共享特徵空間

(4)最後用hourglass重構圖像

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章