第六講非線性優化
首先對這章要用到的概率知識點做一些回顧
知識點回顧
-
概率與統計
概率是已知模型和參數,推數據。統計是已知數據,推模型和參數。
-
貝葉斯公式
P(A)即是常說的先驗概率。
展開分母
其中,表示非A
貝葉斯公式就是在描述,你有多大把握能相信一件證據?(how much you can trust the evidence)
我們假設響警報的目的就是想說汽車被砸了。把A計作“汽車被砸了”,B計作“警報響了”,帶進貝葉斯公式裏看。
我們想求等式左邊發生A|B的概率,這是在說警報響了,汽車也確實被砸了。汽車被砸引起(trigger)警報響,即B|A。但是,也有可能是汽車被小孩子皮球踢了一下、被行人碰了一下等其他原因(統統計作∼A),其他原因引起汽車警報響了,即B|∼A。
那麼,現在突然聽見警報響了,這時汽車已經被砸了的概率是多少呢(這即是說,警報響這個證據有了,多大把握能相信它確實是在報警說汽車被砸了)?想一想,應當這樣來計算。用警報響起、汽車也被砸了這事件的數量,除以響警報事件的數量(這即【式1】)。進一步展開,即警報響起、汽車也被砸了的事件的數量,除以警報響起、汽車被砸了的事件數量加上警報響起、汽車沒被砸的事件數量(這即【式2】)
-
似然函數
該輸入有兩個:x表示某一個具體的數據;θ表示模型的參數。
如果θ是已知確定的,x是變量,這個函數叫做概率函數(probability function),它描述對於不同的樣本點x,其出現概率是多少。
如果x是已知確定的,θ是變量,這個函數叫做似然函數(likelihood function), 它描述對於不同的模型參數,出現x這個樣本點的概率是多少。
例如, , 即x的y次方。如果x是已知確定的(例如x=2),這就是, 這是指數函數。 如果y是已知確定的(例如y=2),這就是,這是二次函數。同一個數學形式,從不同的變量角度觀察,可以有不同的名字。
-
最大似然估計
舉例:一枚硬幣,想知道拋這枚硬幣,正反面出現的概率(記爲)各是多少?
這是一個統計問題:data 到 model()
硬幣拋10次,得到的數據()是:反正正正正反正正正反。我們想求的正面概率是模型參數,而拋硬幣模型我們可以假設是 二項分佈。那麼,出現實驗結果(即反正正正正反正正正反)的似然函數是多少呢?
注意,這是個只關於θ的函數。
而最大似然估計,顧名思義,就是要最大化這個函數,見下圖,找極值。
可以看出,在=0.7時,似然函數取得最大值。
這樣,我們已經完成了對的最大似然估計。即,拋10次硬幣,發現7次硬幣正面向上,最大似然估計認爲正面向上的概率是0.7。(ummm..這非常直觀合理,對吧?)
這裏包含了貝葉斯學派的思想了——要考慮先驗概率。 爲此,引入了最大後驗概率估計。
-
最大後驗概率估計
最大似然估計是求參數, 使似然函數最大。最大後驗概率估計則是想求使 最大。求得的不單單讓似然函數大,自己出現的先驗概率也得大。
MAP其實是在最大化 ,因爲分母其實是已知且固定的。最大化的意義也很明確,x0已經出現了,要求取什麼值使最大。順帶一提,即後驗概率,這就是“最大後驗概率估計”名字的由來。
對於投硬幣的例子來看,我們認爲(”先驗地知道“)取0.5的概率很大,取其他值的概率小一些。我們用一個高斯分佈來具體描述我們掌握的這個先驗知識,例如假設P(θ)爲均值0.5,方差0.1的高斯函數,如下圖
則的圖像爲
注意,此時函數取最大值時,θ取值已向左偏移,不再是0.7。實際上,在θ=0.558時函數取得了最大值。即,用最大後驗概率估計,得到θ=0.558。
-
多維高斯分佈
https://www.cnblogs.com/jermmyhsu/p/8251013.html