最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

前言

frequentist statistics：模型參數是未知的定值，觀測是隨機變量；思想是觀測數量趨近於無窮大+真實分佈屬於模型族中->參數的點估計趨近真實值；代表是極大似然估計MLE；不依賴先驗。

Bayesian statistics：模型參數是隨機變量，觀測是定值；思想是高熵先驗+觀測數據——>低熵後驗；代表是最大後驗概率估計MAPE；依賴先驗概率

最大似然估計（Maximum likelihood estimation, 簡稱MLE）和最大後驗概率估計（Maximum a posteriori estimation, 簡稱MAP）是很常用的兩種參數估計方法，如果不理解這兩種方法的思路，很容易弄混它們。下文將詳細說明MLE和MAP的思路與區別。但別急，我們先從概率和統計的區別講起。

概率和統計是一個東西嗎？

概率（probabilty）和統計（statistics）看似兩個相近的概念，其實研究的問題剛好相反。

概率研究的問題是，已知一個模型和參數，怎麼去預測這個模型產生的結果的特性（例如均值，方差，協方差等等）。舉個例子，我想研究怎麼養豬（模型是豬），我選好了想養的品種、餵養方式、豬棚的設計等等（選擇參數），我想知道我養出來的豬大概能有多肥，肉質怎麼樣（預測結果）。

統計研究的問題則相反。統計是，有一堆數據，要利用這堆數據去預測模型和參數。仍以豬爲例。現在我買到了一堆肉，通過觀察和判斷，我確定這是豬肉（這就確定了模型。在實際研究中，也是通過觀察數據推測模型是／像高斯分佈的、指數分佈的、拉普拉斯分佈的等等），然後，可以進一步研究，判定這豬的品種、這是圈養豬還是跑山豬還是網易豬，等等（推測模型參數）。

一句話總結：概率是已知模型和參數，推數據。統計是已知數據，推模型和參數。

顯然，本文解釋的MLE和MAP都是統計領域的問題。它們都是用來推測參數的方法。爲什麼會存在着兩種不同方法呢？這需要理解貝葉斯思想。我們來看看貝葉斯公式。

貝葉斯公式到底在說什麼？

學習機器學習和模式識別的人一定都聽過貝葉斯公式(Bayes’ Theorem)：

（式1）

貝葉斯公式看起來很簡單，無非是倒了倒條件概率和聯合概率的公式。

把B展開，可以寫成：

（式2）（~A表示“非A”）

這個式子就很有意思了。

想想這個情況。一輛汽車（或者電瓶車）的警報響了，你通常是什麼反應？有小偷？撞車了？不。。你通常什麼反應都沒有。因爲汽車警報響一響實在是太正常了！每天都要發生好多次。本來，汽車警報設置的功能是，出現了異常情況，需要人關注。然而，由於虛警實在是太多，人們漸漸不相信警報的功能了。

貝葉斯公式就是在描述，你有多大把握能相信一件證據？（how much you can trust the evidence）

我們假設響警報的目的就是想說汽車被砸了。把A計作“汽車被砸了”，B計作“警報響了”，帶進貝葉斯公式裏看。我們想求等式左邊發生A|BA|B的概率，這是在說警報響了，汽車也確實被砸了。汽車被砸引起（trigger）警報響，即B|AB|A。但是，也有可能是汽車被小孩子皮球踢了一下、被行人碰了一下等其他原因（統統計作∼A∼A），其他原因引起汽車警報響了，即B|∼AB|∼A。那麼，現在突然聽見警報響了，這時汽車已經被砸了的概率是多少呢（這即是說，警報響這個證據有了，多大把握能相信它確實是在報警說汽車被砸了）？想一想，應當這樣來計算。用警報響起、汽車也被砸了這事件的數量，除以響警報事件的數量（這即【式1】）。進一步展開，即警報響起、汽車也被砸了的事件的數量，除以警報響起、汽車被砸了的事件數量加上警報響起、汽車沒被砸的事件數量（這即【式2】）。

可能有點繞，請稍稍想一想。

從這個角度思考貝葉斯公式：一個本來就難以發生的事情，就算出現某個證據和他強烈相關，也要謹慎。證據很可能來自別的雖然不是很相關，但發生概率較高的事情。發現剛纔寫的代碼編譯報錯，可是我今天狀態特別好，這語言我也很熟悉，犯錯的概率很低。因此覺得是編譯器出錯了。

————別，還是先再檢查下自己的代碼吧。

好了好了，說了這麼多，下面言歸正傳，說一說MLE。

——————不行，還得先說似然函數（likelihood function）

似然函數

似然（likelihood）這個詞其實和概率（probability）是差不多的意思，Colins字典這麼解釋：The likelihood of something happening is how likely it is to happen. 你把likelihood換成probability，這解釋也讀得通。但是在統計裏面，似然函數和概率函數卻是兩個不同的概念（其實也很相近就是了）。

對於這個函數：

輸入有兩個：x表示某一個具體的數據；θθ表示模型的參數。

如果θ是已知確定的，x是變量，這個函數叫做概率函數(probability function)，它描述對於不同的樣本點x，其出現概率是多少。

如果x是已知確定的，θ是變量，這個函數叫做似然函數(likelihood function), 它描述對於不同的模型參數，出現x這個樣本點的概率是多少。

最大似然估計（MLE）

假設有一個造幣廠生產某種硬幣，現在我們拿到了一枚這種硬幣，想試試這硬幣是不是均勻的。即想知道拋這枚硬幣，正反面出現的概率（記爲θ）各是多少？

這是一個統計問題，回想一下，解決統計問題需要什麼？

數據！於是我們拿這枚硬幣拋了10次，得到的數據（x0）是：反正正正正反正正正反。我們想求的正面概率θθ是模型參數，而拋硬幣模型我們可以假設是二項分佈。

那麼，出現實驗結果x0（即反正正正正反正正正反）的似然函數是多少呢？

注意，這是個只關於θθ的函數。而最大似然估計，顧名思義，就是要最大化這個函數。我們可以畫出f(θ)的圖像：

可以看出，在θ=0.7時，似然函數取得最大值。

這樣，我們已經完成了對θθ的最大似然估計。即，拋10次硬幣，發現7次硬幣正面向上，最大似然估計認爲正面向上的概率是0.7。（ummm..這非常直觀合理，對吧？）

且慢，一些人可能會說，硬幣一般都是均勻的啊！就算你做實驗發現結果是“反正正正正反正正正反”，我也不信θ=0.7。

這裏就包含了貝葉斯學派的思想了——要考慮先驗概率。爲此，引入了最大後驗概率估計。

最大後驗概率估計

最大似然估計是求參數θ, 使似然函數P(x0|θ)最大。最大後驗概率估計則是想求θθ使P(x0|θ)P(θ)P(x0|θ)P(θ)最大。求得的θθ不單單讓似然函數大，θθ自己出現的先驗概率也得大。（這有點像正則化里加懲罰項的思想，不過正則化裏是利用加法，而MAP裏是利用乘法）

MAP其實是在最大化不過因爲x0是確定的（即投出的“反正正正正反正正正反”），P(x0)P(x0)是一個已知值，所以去掉了分母P(x0)P(x0)（假設“投10次硬幣”是一次實驗，實驗做了1000次，“反正正正正反正正正反”出現了n次，則P(x0)=n/1000。總之，這是一個可以由數據集得到的值）。最大化P(θ|x0)的意義也很明確，x0已經出現了，要求θ取什麼值使P(θ|x0)P(θ|x0)最大。順帶一提，P(θ|x0)即後驗概率，這就是“最大後驗概率估計”名字的由來。

對於投硬幣的例子來看，我們認爲（”先驗地知道“）θ取0.5的概率很大，取其他值的概率小一些。我們用一個高斯分佈來具體描述我們掌握的這個先驗知識，例如假設P(θ)P(θ)爲均值0.5，方差0.1的高斯函數，如下圖：

則P(x0|θ)P(θ)的函數圖像爲：

注意，此時函數取最大值時，θθ取值已向左偏移，不再是0.7。實際上，在θ=0.558時函數取得了最大值。即，用最大後驗概率估計，得到θ=0.558

最後，那要怎樣才能說服一個貝葉斯派相信θ=0.7呢？你得多做點實驗。。

如果做了1000次實驗，其中700次都是正面向上，這時似然函數爲:

如果仍然假設P(θ)P(θ)爲均值0.5，方差0.1的高斯函數，P(x0|θ)P(θ)P(x0|θ)P(θ)的函數圖像爲：

在θ=0.696處，P(x0|θ)P(θ)取得最大值。

這樣，就算一個考慮了先驗概率的貝葉斯派，也不得不承認得把θθ估計在0.7附近了。

PS. 要是遇上了頑固的貝葉斯派，認爲P(θ=0.5)=1P(θ=0.5)=1 ，那就沒得玩了。。無論怎麼做實驗，使用MAP估計出來都是θ=0.5θ=0.5。這也說明，一個合理的先驗概率假設是很重要的。（通常，先驗概率能從數據中直接分析得到）

最大似然估計和最大後驗概率估計的區別

相信讀完上文，MLE和MAP的區別應該是很清楚的了。MAP就是多個作爲因子的先驗概率P(θ)。或者，也可以反過來，認爲MLE是把先驗概率P(θ)認爲等於1，即認爲θθ是均勻分佈。如果有說錯的或者沒說清楚的地方，歡迎留言指教！如果您更好的見解，也歡迎留言交流！謝謝閱讀！

本文來自 nebulaf91,全文地址請點擊：https://blog.csdn.net/u011508640/article/details/72815981

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

前言

概率和統計是一個東西嗎？

貝葉斯公式到底在說什麼？

似然函數

最大似然估計（MLE）

最大後驗概率估計

最大似然估計和最大後驗概率估計的區別

規則化和模型選擇（Regularization and model selection）——機器學習：交叉驗證Cross validation

機器學習中的在線學習與離線學習

few-shot learning是什麼

K-means聚類算法——機器學習

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結