Max-Margin Boltzmann Machines for Object Segmentation的解讀

該模型的代碼開源(作者提供了MATLAB的代碼和數據集)

本文在玻爾茲曼機和ShapeBM的基礎上提出了單隱含層的MMBM1和雙隱含層的MMBM2其實本文最大的新意之一在於將觀察層(原始圖像的特徵)連接到隱含層和可見層,這個優點就是此時我們能夠直接從圖像特徵來推斷對象的形狀(即分割對象)。





1 文章提出的兩種模型

這裏引用摘要部分的翻譯來簡述文章的主要工作:本文針對物體分割提出了最大邊界的玻爾茲曼機,它作爲模型化隱層變量和對於輸入觀測的輸出標籤的聯合分佈的條件玻爾茲曼機的一個主要算法之一。除了圖想到標籤的連接,我們也建立了圖想到隱層的鏈接來促進全局形狀預測,從而得出一個簡單迭代條件模型算法,以爲後驗概率推斷提供效率。同時,我們爲判別訓練建立了最大邊界目標函數,並且在學習過程過程中分析了不同邊界函數的影響;最後本文在三種數據集上對提出的算法作了評估。

 

1 該模型的代碼開源(作者提供了MATLAB的代碼和數據集)

      摘要:本文針對物體分割提出了最大邊界的玻爾茲曼機,它作爲模型化隱層變量和對於輸入觀測的輸出標籤的聯合分佈的條件玻爾茲曼機的一個主要算法之一。除了圖想到標籤的連接,我們也建立了圖想到隱層的鏈接來促進全局形狀預測,從而得出一個簡單迭代條件模型算法,以爲後驗概率推斷提供效率。同時,我們爲判別訓練建立了最大邊界目標函數,並且在學習過程過程中分析了不同邊界函數的影響;最後本文在三種數據集上對提出的算法作了評估。

2 介紹

        本文提出了針對普適類的條件玻爾茲曼機的對象分割模型,本文模型除了從圖像到標籤的連接,也包含從圖像到隱層變量的連接,這個好處是允許我們從圖像特徵直接進行形狀推斷;同時我們也推導出適用於最大後驗推斷的高效迭代式條件模型。

       針對CRFCBM模型面對指數級輸出組合的問題,近似學習算法易陷入局部最優解;而我們提出的給予最大邊界的CBM能夠高效地解決這個問題

       相比已提出的最大邊界的玻爾茲曼機主要針對理論的研究,我們提出的方法主要在於圖像分割上的應用;同時和基於超像素CRF和基於高階模式的方法在三種數據集上進行對比分析。

 

2 相關的工作

        這裏首先對現有的方法作了分析,然後指出在上述的提到的方法,在圖像特徵和隱變量之間的唯一的推理路徑推進將標籤分配給圖像像素,然而卻將這個形狀僅僅使其作爲先驗信息起作用,因此這個形狀信息沒有被完全開發研究。相反,我們的MMBM介紹了隱變量和圖像特徵間的連接,這種做法使得MAP推斷程序更加高效,從而有助於最大邊界學習。

3 模型

     首先,在這裏介紹了兩種玻爾茲曼機的變體,RBMsShapeBM爲模型化對象形狀;其次描述了本文提出的條件模型和最大後延推斷算法。

3.1 玻爾茲曼機

      給定一個對象有標籤的圖像,我們能夠將mast表示爲可見變量y屬於{0,1}的集合;RBMs使用隱層變量h{0,1}n)的一層去捕獲可見變量之間的全局依賴性:

如圖1(a)所示:

RBMs在可見層和隱含層之間沒有橫向的連接,因此能量函數可以採用下式實現:

                         

RBM的一個優良特性是:在給定隱層變量的情況下,可見變量條件獨立的;反之,在給定可見變量的情況下,隱層變量也是條件獨立的;隱層和可見層的變量的條件概率可以通過公式34來表示。

RBM在模型化複雜分佈的條件是,有大量的訓練樣本和隱層變量

上述主要描述了ShapeBM的結構,其中第一隱含層被劃分爲若干不相鄰的子集,子集中的每個部分只和對象掩模的局部圖像塊連接(既含有局部感受野),同時不同圖像塊能夠共享權重(既含有權重共享),這個優點能夠大幅度減少參數變量;而第二層隱變量和第一層隱變量全連接;

由於第一隱含層連接的是可見變臉層的局部圖像塊,因此,可將第一隱層變量集合的每部分變量放在一個大的權重矩陣W中,從而改寫爲公式6

這裏主要描述了:

a.ShapeBM相比兩層的條件RBM的優點

b.ShapeBM結構中第一二隱含層的權重和作用

c.這個模型的缺點

3.2 條件玻爾茲曼機

        這裏RBMsShapeBMs有自身的缺點,不能高效的從圖像去推斷對象的二值掩模(物體的分割);因此,提出可以構建p(x,y)的全生成模型;現有文獻提出了基於對象圖像和分割部分圖像的生成多項式聯合模型。

 構建基於對象圖像和形狀掩模的難點,同時提出解決這個問題的MMBM1

MMBM2模型;

在這兩個模型中引入了幾個很重要的關鍵變量x0(低層次的圖像特徵);

x1(帶分割目標的部分的特徵);V1是目標部分的模板;x2(描述了對象的整體特徵)V2則由不同姿態和視角的對象模板組成;這個模型的特點就是將觀察圖像x連接到隱含層和可見層,這個優點就是此時我們能夠直接從圖像特徵來推斷對象的形狀(即分割對象)。

        

這裏給出這兩個模型的圖,從圖可以對該模型有個直觀的理解;圖d中同一顏色部分相連接。

3.3 MAP推斷

按原文理解:給定圖像特徵xy最可能的評估可由9式表示:

          

這裏主要提出對單層和雙隱含層的MMBM的模型求解;對於單隱含層由於邊界分佈能夠用自由能量來表示,因此對於9式的求解可以轉化爲求解11式,然後採用梯度的方式來尋找最優的y;但是對於雙隱含層的MMBM,由於其自由能量不能表述,因此使用EM算法去求解log似然函數log(p(y|x))如果上述的條件分佈不是單峯的,則可由12式來代替;

針對條件分佈獨立的特性,對於單隱含層的MMBMs,本文提出採用高效的迭代條件模型ICM去求解;

4.學習

這裏對於MMBM的學習給出訓練樣本{(xn,yn)},單層和雙隱含層的MMBM的模型和模型參數;同時闡述MMBM模型由獨立圖像和依賴圖像等兩部分組成,進一步說明MMBM學習的步驟(首先通過生成預訓練來初始化圖像獨立部分,然後將問題重新表述爲最大邊界優化問題,這個問題進一步採用CCCP算法來求解)。

自我理解:首先採用預訓練初步分割對象,然後採用圖像像素間依賴去細化邊界部分;

4.1 預訓練

a.生成的預訓練的p(y,H)提供了輸出和隱含層變量間合適的正則化;並且促進隱含層變量去在後續步驟中的判別學習

b.如果省略掉圖像依賴相關部分,則單層的MMBM退化爲RBM,而雙隱含層的MMBM退化爲ShapeBM,此時前面用於解決該模型的問題,可以適用於MMBM模型

c.事實上,BM一般的訓練步驟要求去最小化數據依賴和模型依賴間的期望,訓練RBM則最小化模型和數據間的對比差異,而對於ShapeBM的每層則通過貪婪地學習方式進行

4.2最大邊界學習

a.對於圖像中實例i的預測,對應的標籤yi可用14式來求解表示,進一步通過省略兩邊的分區函數Z14式可以採用能量的約束形式15式來表示;對於公式15的模型解釋,左邊描述了數據依賴能量,而右邊描述了模型依賴能量。此時,遇到的一個難題是:該模型的約束是指數數量級的?對應我們通過16式來尋找隱含層的變量Hi*能夠在數據依賴能量中最好地解釋實例(xi,yi)

b.對於模型依賴能量,通過增加能量邊界來計算最優的預測,正如公式17表述的那樣。此時對於公式1617的編碼問題都能夠通過ICM算法高效地求解,只是在隨機初始化的是H

a.爲了處理圖像的噪聲,通過在模型中引入鬆弛變量來鬆弛邊界約束;

此時,對MMBM學習重新採用最大邊界目標函數的形式重新表述爲18式;同時,此時18式等價於求解19式中的最優化問題;

b.對於公式19的求解,通過推導SGD算法去求解這個模型,對於模型的參數部分作了較詳細地說明

c.爲了求解公式19,首先採用預訓練的參數初始化參數w0,同時提出瞭解決這個問題的隨機梯度算法來處理優化問題;

邊界函數的對比

本文強調選擇一個適合的邊界罰函數對於MMBM高效地學習是至關重要的;這裏以單層MMBM爲例,從該模型的能量函數可以發現,該能量函數由三部分組成H-V/H-I/V-I,它們則分別對應MMBM圖模型中三種邊界;

鑑於此,我們分析四種邊界函數的選擇同時實驗評估它們的性能;

這裏我們對每種邊界函數選擇帶來的效果進行分析

case1的缺點:可能只較強地優化了H-V,H-IV-I沒有得到很好的優化

case2we may obtain strong H-V and V-I components but a weak H-I component.

case3:使V-I沒有得到優化

case4:. Since ∆(y, yi) and ∆(H, Hi) are absorbed into the V-I component and H-I component, respec-

tively, all three components are optimized during learning.

5 實驗

5.1 數據集

Penn-Fudan Pedestrians行人數據集:

爲了增加訓練樣本,將圖像塊進行鏡像,然後隨機分裂爲訓練和測試樣本,但是,一對鏡像圖像塊必須在一組中;

馬的數據集:

鳥類數據集;

對數據集作了人工精細分割;

5.2 實現

框架:

主要說明了網絡的結構設置和如何處理輸入圖像與標籤送入模型進行訓練

特徵:

這裏對於可見層(x0/第一隱含層(x1)/第二隱含層(x2)分別提取圖像不同的特徵送入對應的層中;\

訓練

該模型的代碼開源(作者提供了MATLAB的代碼和數據集)

結果

涉及對比實驗

6 結論

作者在結論部分,主要闡述了本文工作:

a.建立了從圖像觀察變量到隱含層變量的連接

b.提出了簡單高效地ICM算法用於MAP推斷

c.採用最大邊界函數公式化MMBM模型

最後作者展望部分:

a.後續加入

b.MMBM分割中集成對象檢測的功能

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章