【論文解析】Unsupervised Discovery of Object Landmarks as Structural Representations

最近在翻CVPR2018的文章,突然就翻到了這篇oral,關於無監督學習的關鍵點檢測,感覺還是很流弊的,特地來分享一下
論文鏈接:Unsupervised Discovery of Object Landmarks as Structural Representations
首先,來看一下網絡結構
在這裏插入圖片描述

主要分成三個部分,landmark detector(對應於左上角的藍色部分),Local latent descriptors(對應左下角的粉色部分)以及landmark-based decoder(對應於右半部分)。

1.landmark detector:
可以看到,這部分主要是一個hourglass網絡,輸入的是一張原圖,沒有label信息,經過這個網絡得到一個初始的類似於heatmap的raw score map(R)。
在這裏插入圖片描述
θ表示網絡參數,要注意的是這裏R有k+1個通道,k是landmark 的數量,第k+1代表的是background。
然後R經過softmax歸一化之後得到detection confidence map(我把它叫做置信圖)
在這裏插入圖片描述
然後把Dk看作是一個權重圖,第k個landmark的座標用以下式子計算:
在這裏插入圖片描述
然後在這裏插入圖片描述是一個空間歸一化因子,就是爲了座標乘上權重計算得到landmark座標之後能夠返回原來的座標系下對應的scale。同時這個式子3是可導的,意味着它可以進行反向傳播(除非Dk權重都集中在一個座標上面,那就是完美的理想網絡也不需要可導直接可以用了hh)
但是上面得到的landmark是隨機的,太任意了,很可能得到的landmark都不能用,爲此作者也提出了幾個軟約束
1.Concentration constraint
濃度約束,目的是爲了讓權重圖Dk的密度集中在小部分區域,然後以至於可以把最集中區域的中心點當作是landmark,否則如果權重圖很分散的話會陷入不知道選那個點當作landmark的尷尬境地。把Dk/ζk當作是二項分佈的密度,計算兩個方差σ²det,u和σ²det,v,得到loss函數
在這裏插入圖片描述
把這個loss函數當作一個各向同性的高斯分佈的熵的指數形式(把loss函數當作熵的目的是因爲熵越低意味着更高的峯值分佈),可以得到一個對密度Dk/ζk作估計的高斯分佈
在這裏插入圖片描述
2.separation constraint
分離約束,這個其實比較易於理解,就是爲了讓各個landmark都儘可能地分離,否則最開始的隨機性可能導致預測出來的landmark座標都在圖像中心附近。在這裏插入圖片描述
3.equivariance constraint
不變性約束。就是對於變換後的圖像,檢測出來的landmark位置還能和原來的一樣,不受旋轉,縮放等影響。變換函數用TPS(薄板樣條插值)隨機參數隨機得到。

在這裏插入圖片描述
這裏g是對變換後的圖像檢測得到的座標,然後後面的(xk,yk)是直接對原圖座標作同樣變換得到的值,兩個構成了類似於MSEloss的loss函數。
4.Cross-object correapondence
跨對象的一致性主要是通過同一濾波器共享語義相似度這個事實。

2.Local latent descriptors
因爲landmark可能不足以描述圖像的structural representation,所以引入了額外的局部潛在描述器,所謂局部,意味着它也不能編碼太多了全局信息。
還是通過一個hourglass 結網絡,得到feature map F。
在這裏插入圖片描述對於每個F,用式子6中得到的置信圖高斯估計分佈當作軟掩模,來得到每個landmark的局部特徵。C小於S,因爲裏面有一個線性操作子Wk,專門用來降維,將landmark的feature表示降到低維空間,使得可以用特定有限bits的pattern來表示。
在這裏插入圖片描述

3.Landmark-based decoder
因爲是encoder-decoder結構,所以圖像重建也是可以的。
首先採用以前面1中得到的landmark的座標爲中心得到的各向同性高斯分佈圖當作raw score map。背景通道被置爲1,再across channels正則化R得到D。
在這裏插入圖片描述
在這裏插入圖片描述

然後結合2中得到的fk,把D當作軟掩模,進行一個全局反池化,得到最後的feature map。
在這裏插入圖片描述
裏面的η是非線性激活函數,如LeakyReLU等等。
但是,D和F得到了之後,如果只用一組,可能效果不好,因爲要平衡D中的密度銳度。若D中越密,那麼早期反向傳播的像素點就會越少,對網絡的迭代不好,所以作者的做法是用不同的σdec得到很多組D和F,用它們來進行圖像的重建。

在這裏插入圖片描述
最後的loss函數如下:
在這裏插入圖片描述
其中Lrecon爲在這裏插入圖片描述
λ取0.5

(最近任務多,先寫完網絡結構了,實驗部分後面補)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章