Preliminaries
瞭解參數估計,需要知道以下先導知識:
數學期望、方差與協方差
參見:[數理知識]機器學習入門: 概率論與信息論基礎 - 數學期望、方差與協方差
常用概率分佈及其期望、方差
參見:[數理知識]機器學習入門: 概率論與信息論基礎 - 常用概率分佈及其期望、方差
參數估計問題
參數估計是數理統計中重要的統計推斷問題之一。
給定 x∼P(x;θ),參數 θ 控制了 x 的分佈“範圍”:
- 我們在已知其概率分佈模型和一系列隨機變量 x 的值之後,試圖推測出 θ 的值;(點估計)
- 在點估計的基礎上,根據樣本統計量的抽樣分佈可以對樣本統計量與總體樣本的真實參數的接近程度求出一個概率度量,在此概率下給出總體參數估計的一個可信的區間範圍。(區間估計)
這類問題就被統稱稱爲參數估計問題。
一、大數定律及中心極限定理
在正式開始參數估計之前,需要了解一下其先導知識——大數定律及中心極限定理。
1 切比雪夫不等式(Chebyshev)
設 x 是隨機變量,如果其期望 E 和方差 Var(x) 存在,則 ∀ε>0 有:
ε2Var(x)≥P(∣x−E∣≥ε)
證明:因爲 ∣x−E∣≥ε 且 ε≥0 所以有 (ε∣x−E∣)2≥1。
設 x 的概率密度函數爲 p(x),則有:
P(∣x−E∣≥ε)P(∣x−E∣≥ε)=∫∣x−E∣≥εp(x)dx≤∫∣x−E∣≥ε(ε∣x−E∣)2p(x)dx≤ε−2∫−∞+∞(∣x−E∣)2p(x)dx≤ε2Var(x)∴ 原命題得證。
- 顯然,1−ε2Var(x)≤P(∣x−E∣<ε)。
- 切比雪夫不等式給出瞭如何在隨機變量的分佈未知而期望和方差已知的情況下估計P(∣x−E∣≥ε)的極限。
- 下文中的切比雪夫大數定律等幾個大數定律變形均可由切比雪夫不等式證明得到。
2 大數定律(Law of Large Numbers)
依概率收斂 : 設有隨機變量序列 x1,x2,⋯,xn,⋯ 對 隨機變量 x 使得 ∀ε>0 有:n→∞limP(∣x−xn∣≥ε)=0則稱序列xi依概率收斂於 x, 記爲 xi⟶Px。
大數定律:設有隨機變量序列 x1,x2,⋯,xn,⋯ ,其任意劃分的互斥組合的期望值從小到大排列爲 a1,a2,⋯,an 使得 ∀ε>0 有:
n→∞limP(∣n1i=1∑nxi−an∣≥ε)=0或記作:
n1i=1∑nxi⟶Pan, n→∞
Tip:大數定律說明了隨機變量序列前若干項的算術平均值在某種條件下收斂到這些項的數學期望。(注意:數學期望 E在概念上不等於算術平均值 n1∑inxi,只有在xi等概率分佈時二者等值。)
- 大數定律以嚴格的數學形式表現了隨機事件在足夠的廣度上的頻率穩定性。利用這一性質,我們可以基於抽樣樣本中的均值來估計整體的均值。
它具有以下幾個變形:
-
切比雪夫大數定律 設相互獨立的隨機變量序列(集合) x1,x2,⋯,xn,⋯ 具有相同的數學期望 μi=μ ,若其也具有相同的方差或方差 σi2<C,C爲一個大於零的常數,則對於 ∀ε>0 有:
n→∞limP(∣n1i=1∑nxi−μ∣≥ε)=0n1i=1∑nxi⟶Pμ該定律說明了在方差滿足一定條件時,序列服從大數定律。
-
khintchine大數定律 設相互獨立的隨機變量序列(集合) x1,x2,⋯,xn,⋯ 滿足同分布且具有有限的數學期望時,序列服從大數定律。該定理在切比雪夫大數定律的基礎上,補充了當方差未知或不存在時,序列是否滿足大數定律的問題。
3 中心極限定理(central limit theorems)
Lindeberg-Levy中心極限定理:設隨機變量序列x1,x2,⋯,xn,⋯ 滿足獨立同分布假設 ,記 ∑inxi=X ,若 μi=μ、σi2=σ2,當 n 足夠大時,X 近似滿足 X∼N(nμ,nσ2) 或者說 n1∑inxi∼N(μ,nσ2)。
Lyapunov中心極限定理:(一般化推廣) 設隨機變量序列 x1,x2,⋯,xn,⋯ 滿足獨立同分布假設,記 ∑inxi=X,當 n 足夠大時,X 近似滿足 X∼N(∑inμi,∑inσi2) 或者說 n1∑inxi∼N(n∑inμi,n∑inσi2)。
4 大數定理和中心極限定理的理解
- 大數定理告訴我們:當抽樣樣本的量逐漸增大,其均值將依概率收斂到總體樣本的均值。此時我們不必關心真實的分佈究竟時怎樣的。
- 中心極限定理告訴我們:當抽樣樣本的量逐漸增大,這些抽樣樣本的均值將會滿足 N(n∑inμi,n∑inσi2)。顯然,當 n 逐漸變大,該正態分佈的方差越小最終將塌縮爲 Dirac delta function。
帶圖的直觀體驗:怎樣理解和區分中心極限定理與大數定律?
>返回目錄
二、 點估計(point estimator)
事實上,對 θ 的計就是點估計問題,我們一般把其點估計值記爲 θ^ ,稱爲點估計值。
1 矩估計
矩估計法用一階樣本原點矩來估計總體的期望而用二階樣本中心矩來估計總體的方差。
由Khintchine大數定理可知,若樣本總體的數學期望有限,則樣本均值依概率收斂於其數學期望。因此在估計時可以使用樣本的矩來作爲總體矩的估計量。
我們使用矩估計來估計時,有:
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧μ1(θ1,θ2,⋯,θk)μ2(θ1,θ2,⋯,θk)μk(θ1,θ2,⋯,θk)=n1∑i=1nXi=n1∑i=1nXi2⋮=n1∑i=1nXik
原點矩:對於自然數 k 和 ∀a∈R,隨機變量 x 的期望值 E[(x−a)k] 叫做隨機變量 x 對 a 的 k 階矩(若 a=0 則稱爲 k 階原點矩)。當 a=0,k=1 時即爲 x 的數學期望。
中心矩:若對於隨機變量 x 存在 E[x−E[x]]k,則稱其爲 x 的 k 階中心矩。
示例:對於均勻分佈 x U(a,b),欲對 a,b 進行估計,已知均勻分佈的期望爲 E[x]=2a+b,方差 Var(x)=12(b−a)2,則 E[x2]=Var(x)+E[x]2,利用矩估計則有:
{E[x]E[x2]=2a+b=n1∑i=1nXi=12(b−a)2+(2a+b)2=n1∑i=1nXi2解得:
⎩⎪⎪⎨⎪⎪⎧μxa^b^=n1∑i=1nXi=μx−n3∑i=1n(xi−μx)2=μx+n3∑i=1n(xi−μx)2
2 最大似然估計(maximum Likelihood)
最大似然估計的參考:[數理知識]貝葉斯公式和最大似然估計筆記
示例:對於伯努利分佈(即重複次數爲1的二項分佈) x∼B(1,p),欲對 p 進行估計:
L(p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi取自然對數:
lnL(p)=i=1∏npxi(1−p)1−xi=(i=1∑nxi)lnp+(n−i=1∑nxi)ln(1−p)令∂p∂lnL(p)=0 解得:
p^=n1i=1∑nxi
>返回目錄
三、 區間估計(interval estimate)
在點估計的基礎上,根據樣本統計量的抽樣分佈可以對樣本統計量與總體樣本的真實參數的接近程度求出一個概率度量,在此概率下給出總體參數估計的一個可信的區間範圍。與區間估計常常一同出現的,還有置信區間的概念。
對於區別點估計和區間估計,有個很通俗的解釋:
- 我對待定參數只估計一個值(點估計),只篤定了這個值是最精確的;
- 我給出待定參數的一個估計範圍(區間估計),猜測這個區間內至少有一個值使得待定參數最接近於真實值;
- 對於這個區間,給出一個概率(置信度)來說明這個區間內有多大的把握存在至少有一個值使得待定參數最接近於真實值;給出置信度的區間估計就是置信區間。
- 顯然,區間估計的精確度更高,但其“成本”也提升了,即獲得精確值所需要進行嘗試的次數變多。
置信區間(confidence interval)
補充理解: 如何理解 95% 置信區間?- 知乎
置信區間 設總體樣本集 X 的分佈函數 F(x;θ) 已知,先準備對 θ 進行估計,如果對 ∀ 0<a<1 可以得知子樣本集 X′∈X 可以得到待定參數的下界(置信下限)與下界(置信上限)θˉ,θ,使得:
P(θ(X′))<θ<P(θˉ(X′))=1−a則稱隨即區間 (θˉ,θ) 爲參數 θ 以 1−a 爲置信水平(或置信度)的置信區間,或稱雙側置信區間。
例題:(脫敏數據裁剪於我們的一次爬蟲實驗) 已知某大學某組織的學生在總計3613場的某遊戲對局中,每局時間服從正態分佈N(μ,25.62)。現從中抽取100場的數據,根據矩估計求得點估計μ^=1001∑i=1100xi=43.2(分鐘),給定95%置信區間,試求得其平均遊戲時長(分鐘)的範圍。
解:根據大數定律和中心極限定理,可以得知100場遊戲的抽樣集 X′ 滿足 X′∼N(μ,10025.62) 。
令 a=0.05 ,查標準正態分佈表可知 z2a=1.96,即:
P(−z20.05<nσμ^−μ<z20.05)−1.96<nσμ^−μ=1−0.05=0.95<1.96∴在置信度爲95%的置信區間中,有:
μ^−1.96nσ<μ<μ^+1.96nσ代入 μ^=43.2、n=100、σ=25.6 得:
38.1824<μ<48.2176也就是說,我們有95%的把握認爲,總計3613場的遊戲平均每局時間落在這個範圍內(實際上的真實值爲40.2分鐘),在區間估計的情況下,我們修正點估計值 μ^ ,用區間估計 (43.2±1.9610025.6)∣0.95 來替代對 μ 的估計。
>返回目錄
四、 估計的評價標準
1 無偏性(unbias)
估計的偏差被定義爲:bias(θ^)=E(θ^)−θ其中 θ 爲真實值,E 是數學期望。
以伯努利分佈 P(x=k)=pk(1−p)(1−k) 爲例,我們給出參數估計 p^=n1∑i=1nxi,則其偏差爲:
bias(p^)=E[n1i=1∑nxi]−p=n1i=1∑nE[xi]−p=p−p=0
Tip:伯努利分佈的期望是 p,參見: >離散型概率分佈或範疇分佈(categorical distribution)
若 bias(θ^)=0,我們稱其爲無偏(unbiased)的或無偏估計。當其爲無偏估計時,則意味着我們對 n 個分佈值 xi 所得到的參數估計值的均值(期望)與真實值相等。
- 無偏性的意義在於,在多次重複下,估計值產生的偏差雖會在真實值周圍波動,但在大範圍實驗中它仍舊最接近真實值。
- 若某個估計值當且僅當樣本量趨近於無窮時才具有無偏性,我們稱其爲漸進無偏(asymptotically unbiased)。
2 有效性
對於一個參數來說,其可能具有多個無偏估計,因此我們需要有更進一步的衡量標準。
- 如果一種估計的方差比另一種估計的方差小,則稱方差較小的估計值更有效。
從上文的例題中,我們不難得知參數估計 p^=n1∑i=1nxi的方差爲:np(1−p)。
3 一致性(相合性)
無偏性和有效性在統計意義上給出了估計值地性能,但其並不能保證保證每一次具體估計時的性能,因此我們引入了參數估計的一致性。給定任意正實數 ε 都有:
n→∞limP(∣θ^−θ∣>ε)=0或者:
n→∞limθ^=θ
- 一致性保證了當樣本數量非常大時,每一次的估計量總能在概率意義上任意地接近真實值;
- 一致性保證了估計量的偏差會隨着樣本量的增多而減少;
- 要注意的是,漸進無偏並不等於一致性。
>返回目錄