【SLAM十四講 】第六講

第六講非線性優化

首先對這章要用到的概率知識點做一些回顧

知識點回顧

  • 概率與統計

概率是已知模型和參數,推數據。統計是已知數據,推模型和參數。

  • 貝葉斯公式

P\left ( A \mid B \right ) = \frac{P\left ( B \mid A \right )P\left ( A \right ) }{ P\left ( B \right )}P(A)即是常說的先驗概率。

展開分母

P\left ( A \mid B \right ) = \frac{P\left ( B \mid A \right )P\left ( A \right )}{P\left ( B \mid A \right )P \left ( A \right )+P\left ( B \mid \sim A \right )P \left ( \sim A \right )}其中,\sim A表示非A

貝葉斯公式就是在描述,你有多大把握能相信一件證據?(how much you can trust the evidence)

我們假設響警報的目的就是想說汽車被砸了。把A計作“汽車被砸了”,B計作“警報響了”,帶進貝葉斯公式裏看。

我們想求等式左邊發生A|B的概率,這是在說警報響了,汽車也確實被砸了。汽車被砸引起(trigger)警報響,即B|A。但是,也有可能是汽車被小孩子皮球踢了一下、被行人碰了一下等其他原因(統統計作∼A),其他原因引起汽車警報響了,即B|∼A。

那麼,現在突然聽見警報響了,這時汽車已經被砸了的概率是多少呢(這即是說,警報響這個證據有了,多大把握能相信它確實是在報警說汽車被砸了)?想一想,應當這樣來計算。用警報響起、汽車也被砸了這事件的數量,除以響警報事件的數量(這即【式1】)。進一步展開,即警報響起、汽車也被砸了的事件的數量,除以警報響起、汽車被砸了的事件數量加上警報響起、汽車沒被砸的事件數量(這即【式2】)

  • 似然函數

P\left ( x \mid \theta \right )

該輸入有兩個:x表示某一個具體的數據;θ表示模型的參數。

如果θ是已知確定的,x是變量,這個函數叫做概率函數(probability function),它描述對於不同的樣本點x,其出現概率是多少。

如果x是已知確定的,θ是變量,這個函數叫做似然函數(likelihood function), 它描述對於不同的模型參數,出現x這個樣本點的概率是多少。

例如, f(x,y)=x^{y}, 即x的y次方。如果x是已知確定的(例如x=2),這就是f(y)=2^{y}, 這是指數函數。 如果y是已知確定的(例如y=2),這就是f(x)=x^{2},這是二次函數。同一個數學形式,從不同的變量角度觀察,可以有不同的名字。

  • 最大似然估計

舉例:一枚硬幣,想知道拋這枚硬幣,正反面出現的概率(記爲\theta)各是多少?

這是一個統計問題:data 到 model(\theta

硬幣拋10次,得到的數據(x_{0})是:反正正正正反正正正反。我們想求的正面概率\theta是模型參數,而拋硬幣模型我們可以假設是 二項分佈。那麼,出現實驗結果x_{0}(即反正正正正反正正正反)的似然函數是多少呢?

f\left ( x_{0}, \theta \right )=(1-\theta)*\theta*\theta*\theta*\theta*(1-\theta)*\theta*\theta*\theta*(1-\theta)=\theta^{7}*(1-\theta)^{3}   注意,這是個只關於θ的函數。

而最大似然估計,顧名思義,就是要最大化這個函數,見下圖,找極值。

likeli

可以看出,在\theta=0.7時,似然函數取得最大值。

這樣,我們已經完成了對\theta的最大似然估計。即,拋10次硬幣,發現7次硬幣正面向上,最大似然估計認爲正面向上的概率是0.7。(ummm..這非常直觀合理,對吧?)

這裏包含了貝葉斯學派的思想了——要考慮先驗概率。 爲此,引入了最大後驗概率估計。

  • 最大後驗概率估計

最大似然估計是求參數\theta, 使似然函數P(x_{0} \mid \theta)最大。最大後驗概率估計則是想求\theta使P\left ( x_{0} \mid \theta \right ) P\left ( \theta \right ) 最大。求得的\theta不單單讓似然函數大,\theta自己出現的先驗概率也得大。 

 

MAP其實是在最大化 P\left (\theta \mid x_{0} \right ) =\frac{P\left ( x_{0} \mid \theta \right ) P\left ( \theta \right )}{P\left ( x_{0} \right )} ,因爲分母其實是已知且固定的。最大化P(\theta |x_{0})的意義也很明確,x0已經出現了,要求\theta取什麼值使P(\theta |x_{0})最大。順帶一提,P(\theta |x_{0})即後驗概率,這就是“最大後驗概率估計”名字的由來。

對於投硬幣的例子來看,我們認爲(”先驗地知道“)\theta取0.5的概率很大,取其他值的概率小一些。我們用一個高斯分佈來具體描述我們掌握的這個先驗知識,例如假設P(θ)爲均值0.5,方差0.1的高斯函數,如下圖

ptheta

P\left ( x_{0} \mid \theta \right ) P\left ( \theta \right )的圖像爲

map1

注意,此時函數取最大值時,θ取值已向左偏移,不再是0.7。實際上,在θ=0.558時函數取得了最大值。即,用最大後驗概率估計,得到θ=0.558。


  • 多維高斯分佈

https://www.cnblogs.com/jermmyhsu/p/8251013.html

 

 https://blog.csdn.net/u011508640/article/details/72815981

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章