參數估計

樣本的統計量

設隨機變量XN 個樣本爲X1,X2,...,Xn ,則
1. 樣本均值爲:

X¯¯¯=1ni=1nXi

2. 樣本的方差爲:
S2=1n1i=1n(XiX¯¯¯)2

樣本方差的分母使用n1 而非n 是爲了無偏

樣本的矩

  1. k 階樣本原點矩
    Ak=1ni=1nXki
  2. k 階樣本中心矩
    Mk=1ni=1n(XiX¯¯¯)k

矩估計

矩估計,即矩估計法,也稱“矩法估計”,就是利用樣本矩來估計總體中相應的參數。首先推導涉及感興趣的參數的總體矩(即所考慮的隨機變量的冪的期望值)的方程。然後取出一個樣本並從這個樣本估計總體矩。接着使用樣本矩取代(未知的)總體矩,解出感興趣的參數。從而得到那些參數的估計。
1. 設總體的期望爲μ ,方差爲σ2μσ 未知,待求),則有
原點矩表達式:

{E(X)=μE(X2)=Var(X)+[E(X)]2=σ2+μ2

根據該總體的一組樣本,求得原點矩:

A1=1ni=1nXiA2=1ni=1nX2i

2. 矩估計的結論:
1. 根據各自階的中心矩相等,計算得到:
μ=X¯¯¯σ2=1ni=1nX2iX¯¯¯2=1ni=1n(XiX¯¯¯)2

2. 由於是根據樣本求得的估計結果,根據記號習慣,寫作:
μˆ=X¯¯¯σˆ2=1ni=1n(XiX¯¯¯)2

3. 正態分佈的矩估計
在正態分佈的總體中採樣得到n個樣本:X1,X2,...,Xn ,該總體的期望和方差爲:
μˆ=X¯¯¯σˆ2=1ni=1n(XiX¯¯¯)2

4. 均勻分佈的矩估計
X1,X2,...,Xn 爲定義在[a,b]均勻分佈的總體中採樣得到n個樣本,求a,b:
E(X)=a+b2Var(X)=(ba)212

矩估計要求滿足:
μˆ=X¯¯¯σˆ2=1ni=1n(XiX¯¯¯)2

從而:
μˆ=a+b2σˆ2=(ba)212
{a=μˆ3σˆb=μˆ+3σˆ

貝葉斯估計和最大似然估計

這部分內容轉載自這裏

最大似然估計(Maximum Likehood Estimation MLE)

最大似然估計的核心思想是:找到參數θ的一個估計值,使得當前樣本出現的可能性最大。簡單說來就是:誰大像誰!

假設有一組獨立同分布(i.i.d) 的隨機變量X ,給定一個概率分佈D ,假設其概率密度函數爲f ,以及一個分佈的參數θ ,從這組樣本中抽出x1,x2,,xn ,那麼通過參數θ 的模型f產生上面樣本的概率爲:

f(x1,x2,,xn|θ)=f(x1|θ)×f(x2|θ)××f(xn|θ)

最大似然估計會尋找關於θ 的最可能的值,即在所有可能的 θ 取值中,尋找一個值使這個採樣的“可能性”最大化!
因爲是”模型已定,參數未知”,此時我們是根據樣本採樣x1,x2,,xn 取估計參數θ,定義似然函數爲:

L(θ|x1,x2,,xn)=f(x1,x2,,xn|θ)=f(xi|θ)

實際使用中,因爲f(xi|θ)一般比較小,而且n往往會比較大,連乘容易造成浮點運算下溢。所以一般我們用對數似然函數(用對數的好處:對數函數與原函數增減性相同,而且求導方便):
lnL(θ|x1,x2,,xn)=i=1nf(xi|θ)
lˆ=1nlnL

那最終θ 的估計值爲:
θˆMLE=argmaxθlˆ(θ|x1,x2,,xn)

根據前面的描述,總結一下求最大釋然估計值的步驟:
1. 寫似然函數
2. 一般對似然函數取對數,並將對數似然函數整理
3. 對數似然函數求導,令導數爲0,求得似然方程
4. 根據似然方程求解,得到的參數即爲所求估計值

對數似然求解實例

問:假如有一個罐子,裏面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我 們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然後把拿出來的球 再放回罐中。這個過程可以重複,我們可以用記錄的球的顏色來估計罐中黑白球的比例。假如在前面的一百次重複記錄中,有七十次是白球,請問罐中白球所佔的比例最有可能是多少?
解:我們假設罐中白球的比例是p ,那麼黑球的比例就是1p 。因爲每抽一個球出來,在記錄顏色之後,我們把抽出的球放回了罐中並搖勻,所以每次抽出來的球的顏 色服從同一獨立分佈。這裏我們把一次抽出來球的顏色稱爲一次抽樣。題目中在一百次抽樣中,七十次是白球的概率是p(x|θ) ,這裏x是所有的抽樣,θ 是所給出的模型參數,表示每次抽出來的球是白色的概率爲p
按照第二部分提到的似然估計求解過程,先寫出似然函數:

p(x|θ)=p(x1,x2,,xn|θ)=p(x1|θ)p(x2|θ)p(xn|θ)=p70(1p)30

接下來對似然函數對數化:
lnp(x|θ)=ln(p70(1p)30)=70lnp+30ln(1p)

然後求似然方程:
ln'p(x|θ)=70p301p

最後求解似然方程,得:p=0.7
以上就是最大似然估計的詳細完整過程!

貝葉斯估計

統計學裏有兩個大的流派,一個是頻率派,一個是貝葉斯派。時至今日,這兩派還未就各自的觀點達成統一。我們前面提到的最大似然估計就是頻率派的典型思路,接下來再看看貝葉斯派的思路,到底跟頻率派估計有何不同。
先來看幾個相關的小公式:
兩個隨機變量x,y 的聯合概率p(x,y) 的乘法公式:

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

如果x,y是獨立隨機變量,上面的式子可以表示爲:
p(x,y)=p(x)p(y)=p(y)p(x)

那麼條件概率就可以表示爲:

p(x|y)=p(x,y)p(y),p(y|x)=p(x,y)p(x)

對於一個完備事件組y1,y2,,yn ,可以使用全概率公式:

p(x)=i=1np(yi)p(x|yi),i=1np(yi)=1

由以上這些,可以得出貝葉斯公式:
p(yi|x)=p(x,yi)p(x)=p(yi)p(x|yi)p(x)

其中,p(yi|x) 是後驗概率。p(x|yi) 是條件概率,或者說似然概率,這個概率一般都可以通過歷史數據統計得出。而p(yi) 是先驗概率,一般也是根據歷史數據統計得出或者認爲給定的,貝葉斯里的先驗概率,就是指p(yi) 。對於p(x) ,我們前面提到可以用全概率公式計算得出,但是在貝葉斯公式裏面我們一般不care這個概率,因爲我們往往只需要求出最大後驗概率而不需要求出最大後驗的具體值。

MLE與Bayes的區別

通過觀察MLE與Bayes的公式,發現Bayes公式比MLE公式裏就多了一項p(yi) (咱們先拋開p(x) 不考慮),而條件概率或者說似然概率的表達式是一致的。從數學表達式的角度來說,兩者最大的區別就在這裏:貝葉斯估計引入了先驗概率,通過先驗概率與似然概率來求解後驗概率。而最大似然估計是直接通過最大化似然概率來求解得出的。

換句話說,最大似然估計沒有考慮模型本身的概率,或者說認爲模型出現的概率都相等。而貝葉斯估計將模型出現的概率用先驗概率的方式在計算過程中有所體現。

舉個大家上學時候就遇到的例子:
假如人們會感染一種病毒,有一種測試方法,在被測試者已感染這個病毒時,測試結果 爲陽性的概率爲95%。在被測試者沒有感染這個病毒時,測試結果爲陽性的概率爲2%。現在,有一個人的測試結果爲陽性,問這個人感染了病毒嗎?
如果用最大似然估計的方法,既然感染了病毒出現陽性的概率爲95%,沒感染出現陽性的概率爲2%,本着誰大像誰的原則,那我就認爲這個人已經感染了病毒。
但是如果用貝葉斯方法進行估計,如果我們得知有一個先驗概率,比如整體人羣中只有1%的人會感染此種病毒,那麼由貝葉斯公式:

p(|)=p()p(|)p()p(|)+p()p(|)=0.01×0.950.01×0.95+0.99×0.02=0.324

其中,p(真陽性|檢測爲陽性)爲後驗概率,即我們通過檢測出爲陽性可以判斷爲真陽性的概率;p() 爲先驗概率,p(|) 爲條件概率,p()p(|)+p()p(|) 爲全概率,檢測出爲陽性是由一個完備事件組構成的:這個人要麼是真陽性,要麼是真陰性。
由此可見,在貝葉斯估計中,先驗概率對結果的影響很大。在這種場景下,採用貝葉斯估計似乎更爲合理一些。
最後來個總結:從本質上來說,最大似然是對點估計,貝葉斯推斷是對分佈估計。即,假設求解參數θ,最大似然是求出最有可能的θ值,而貝葉斯推斷則是求解θ的分佈。

Tips

MLE簡單又客觀,但是過分的客觀有時會導致過擬合(Over fitting)。在樣本點很少的情況下,MLE的效果並不好。比如我們前面舉的病毒的例子。在這種情況下,我們可以通過加入先驗,用貝葉斯估計進行計算。
貝葉斯估計最要命的問題是,實際應用場景中的先驗概率不是那麼好求,很多都是拍腦袋決定的。一旦是拍腦袋決定的,這玩意自然就不準;更有甚者,很多時候是爲了方便求解生造出來一個先驗。那既然這樣,要這個先驗還有什麼卵用呢?所以頻率派的支持者就揪住這點不放攻擊貝葉斯派。
在現在看來,Frequentist與Bayesian這兩派還將長期並存,在各自適合的領域發揮自己的作用。

方差與偏差

偏差(bias):描述的是預測值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實數據,如下圖第二行所示。

方差(Variance):描述的是預測值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,數據的分佈越分散,如下圖右列所示。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章