Pre-learning
- 隱馬爾科夫模型
Y={y1,y2,...,yn} 是一組隨機變量,X={x1,x2,...,xn} 是其觀測變量,我們假設Y具有馬爾科夫性,則X,Y的聯合概率爲
P(x1,x2,...,xn,y1,y2,...,yn)=P(y1)P(x1|y1)∏i=2nP(yi|yi−1)P(xi|yi)
爲確定一個Hidden Markov Model,需要確定以下三組參數[A,B,π]
- 狀態轉移概率
A=[aij]NxN 其中aij=P(yt+1=sj|yt=si),1≤i,j≤N
表示t時刻狀態爲si , t+1時刻狀態爲sj 的概率 - 輸出觀測概率
B - 初始狀態概率
π
- 狀態轉移概率
- 馬爾科夫隨機場
- 團,極大團
- 在馬爾科夫隨機場中,多個變量之間的聯合概率能基於團分解爲多個因子的乘積,每個因子僅與一個團相關。
P(X)=1Z∏Q∈CψQ(XQ)
其中X={x1,x2,...,xn} 是n個隨機變量,其所有團構成集合C,與團Q∈C 對應的變量集合記爲XQ
-
- 條件隨機場
馬爾科夫隨機場希望預測的是聯合概率P(X,Y,O)
而條件隨機場希望預測條件概率P(Y|X,O)
馬爾科夫隨機場是生成模型,而條件隨機場是判別模型。
4.
Notation_paper
Contribution
- Proposed hybrid CNN+CRF model for stereo match
- Proposed a sound model based on Structured Support Vector Machine to train the hybrid model end-to-end.
- Using only shallow CNN and without post-processing, the model performs very well in benchmark.
這是我們用來做stere match的模型結構。首先對左圖中每個像素,我們用UnaryCNN 對其對應的image pairs
Unary CNN
這裏用3-7層,每層100個filters的CNN網絡,對輸入圖片進行特徵計算,其中第一層的filter size爲3x3,其它層爲2x2。同時我們用tanh作爲激活函數,而不是用RELU,一方面tanh比較好訓練,不需要插入複雜的BN層,其次[1](patch matching for optical flow with thresholded hinge loss.), [2](Discriminative learning of local image descriptors.) 證明tanh比RELU更適合Patch Match的任務。
Correlation
這一步,我們通過以下公式計算分別從左右圖中獲取的特徵
其中
這裏的
CRF
CRF model:
其中,
unary 損失項
pair-wise 損失項則爲
其中,
Inference
直接求解上面的CRF模型是非常困難的,但是我們可以用一些算法求近似解。
Let
The DUAL_MM of (#eq:3)