概率統計20——估計量的評選標準

對總體參數進行估計的方式多種多樣,爲了評判估計量的優劣,我們需要藉助一些評選標準。

 

這些亂七八糟的符號

  我覺得參數估計總是人爲地設計各種門坎,裏面參雜着各種符號,一會兒是X,一會兒是x;一會兒是θ,一會兒是θ(X);還有諸如“總體參數”、“待估計參數”這類名詞,究竟是幾個意思?

  有必要先理清這些符號。

  我們用全國18~50歲的男性身高爲例,所有18~50歲的男性是總體。在概率統計中,當我們說到總體,就是指一個具有特定概率分佈的隨機變量,這個隨機變量用X表示,X符合某某分佈。n表示總體的數量,假設這些男性有3億,那麼n就等於3億。在做統計的時候肯定不能普查所有人,這樣成本也太高了,因此纔有抽樣。當然抽樣也有多種形式,比如均勻抽樣、拒絕抽樣等,這是另外的話題,在數據分析專欄中將陸續展開。

  現在調查了100萬個符合條件的男性,這些男性就構成了“整體中的一個樣本”,用X1, X2, …, Xm表示,Xi表示樣本中的第i個男性,m是樣本的容量,m等於100萬。樣本中的每個男性都有特定的身高,是一個具體的數值,這個值用小寫的x表示,x10 = 176cm表示樣本中的第10個數據的值是176cm,此時X10 = x­10。這有點類似於P(X=x)的意思,X表示隨機變量本身,x表示某個特定的數值。

  值得注意的是,如果用X1, X2, …, Xm表示樣本,則強調樣本是隨機的,是理論上的、尚未誕生的樣本,樣本中的每個數據都是一個隨機變量;如果用x1, x2, …, xm表示樣本,則強調樣本中的隨機變量已經有了特定的取值,是已經擁有的樣本。

  此外,n的值不一定很大,如果調查某個特定班級的平均身高,那麼n的值就只是這個班級的學生數,比如n=60。n也不一定是個確定的值,比如從建國到現在全國人民一共消費了多少斤啤酒,沒有具體的數,只知道這個數大到沒邊。

  現在我們知道18~50歲的男性身高符合某個均值爲μ,方差爲σ2的正態分佈X~N(μ, σ2),μ和σ2稱爲“總體的參數”,正是這兩個值決定了分佈的具體形態,用大Θ表示總體參數的集合。總體參數不止一個,這裏的μ和σ2都是總體的參數。θ是總體中的某一個參數,它可以代表μ,也可以代表σ2,有點變量的意思,可能用x比用θ更好理解,但是x已經被佔用了。此外,用表示樣本的均值,用S2表示樣本的方差。

  現在θ的具體值是多少不知道,需要根據樣本X1, X2, …, Xm估計總體參數θ,具體估計量用表示。 表示是由具體的樣本X1, X2, …, Xm估計出來的, 僅僅是爲了強調這一點,至於怎麼估計是另一回事。這也有點類似於y = y(x),第一個y是個具體的數值,這個數值是由x決定的,第二個y是一個映射關係,至於是什麼映射關係是另一回事。有時候也把m個樣本記作X = {X1, X2, …, Xm},因此有了,如果用θ表示μ,就有了。這裏的X不再是總體,而是來自於總體中的樣本,至於X到底是總體還是樣本,需要根據上下文確定。

多個參數產生的問題

  已知總體的均值是μ,方差是σ2>0,但是不知道二者的具體數值,作爲補償,我們擁有總體中m個數據樣本,X1, X2, ……,Xm。現在想要通過這些樣本估計總體的概率分佈模型,即通過樣本估計μ和σ2的具體數值。

  已知總體有期望和方差兩個數字特徵,但不知道具體值,這比直接說啥也不知道強不了多少。

  假設我們已經使用直方圖之類的工具分析過樣本,或直接諮詢過領域內的相關專家,得知總體應當符合正態分佈,X~N(μ, σ2)。現在我們可以用多種方法估計μ和σ2?

  點估計和連續性修正(概率統計17)中的介紹,樣本矩的估計量是:

  一維正態分佈的最大似然估計(概率11)中,最大似然估計也能得到類似的結論:

  當m很大時,1/m和1/(m-1)的差距也很小,可以認爲矩估計和最大似然估計的結論相等。我們能否因此得出一個結論,說兩種估計法在任何分佈下得到的結論都相同?

  

  還是估計總體的均值和方差,這次從樣本的分析中得知,總體可能符合X~[a, b]的均勻分佈。

  在再看大數定律(概率統計18).中我們已經知道均勻分佈的密度函數,從而求得均勻分佈的均值和方差:

  使用矩估計求得樣本的均值和方差時,我們將認爲樣本矩等於總體矩,從而得到一個關於a和b的方程組,進而求得a和b的矩估計量:

  這裏也可以看出,矩估計的優點就是簡單,不管總體服從什麼分佈,樣本矩的計算方法都一樣。

  

  現在來看均勻分佈下樣本的最大似然估計。

  用xmin和xmax表示樣本值中最小的和最大的,對於X~[a, b]來說,所有樣本的取值都在a,b之間,即xmin ≥ a,xmax ≤ b,似然函數是:

  之後的目標是根據樣本找到L(x;a,b)最大時a,b的取值:

  這個結果和矩估計明顯不同。

 

 

  現在的問題是,我們分不出這兩個估計量的優劣。這就是我們要面對的新問題。

 

  我們用 表示兩種方案的估計量。對於不同的估計量,與真實值的差誤差也不同,無法僅憑一個數值來評估估計量,而是使用一條曲線:

 

 

  對於某些估計而言 ,對於另外一些則可能相反。這就好比兩個人的考試成績,甲的語文成績比較好,而乙的數學成績更優秀。能否找出一個全優的學生呢?也就是對於整體中的全部參數,我們都希望估得最佳結果,以使得根據樣本估計的分佈接近整體分佈。這是個美好的願望,隨着待估計參數的增加,找到全優學生的難度也急劇增大。因此爲了找出最優估計量,我們必須添加一些額外的評判規則。這就涉及到如何評估估計量的問題。較爲常用的三個標準是無偏性、有效性和相合性。

無偏性

  X1, X2, …, Xm­是來自於總體中的樣本,θ是總體分佈的參數,θ∈Θ,根據樣本可以得到θ的估計量:

  如果的數學期望存在,且:

  如果對於整體中的任意θ,上式都成立,則稱是θ的無偏估計量。

  這到底是啥意思?參數爲什麼能有期望?

無偏性的數學解釋

  首先需要回顧第一節的內容,清楚地瞭解這些符號的真正含義。

  設總體X的均值爲μ,方差是σ2>0,它們都是整體分佈的參數,且都是待估計的未知參數。既然μ和σ2都是和總體分佈有關的參數,它們自然都可以用θ表示,作爲估計量的也就代表了 。在這個例子中,“是θ的無偏估計”意味着:

  如果使用矩估計,則根據再看大數定律(概率統計18)中的內容,樣本均值的期望與方差是:

  這表明樣本均值是整體均值的無偏估計。

  

  樣本的方差是:

  這裏之所以用Xi而不是xi,是爲了強調樣本的隨機性,可以簡單地理解爲計劃抽取一個隨機樣本,但還沒有真正開始抽取。

  

  現在看看E[S2]是多少。

  

  根據方差的性質:

  對於樣本中的任意一個隨機變量來說,方差和期望都相等:

  此外:

  最終:

  上面的結論表明,樣本方差S2也是總體方差的無偏估計,這也附帶說明了樣本方差的係數是1/(m-1)的原因,如果取1/m,則估計量無法確保無偏性。

  

  從這個例子中也看出,無論總體符合什麼分佈,樣本均值都是整體均值的無偏估計,樣本方差也都是總體方差的無偏估計。

無偏性的意義

  樣本X1, X2, …, Xm­是隨機的,因此根據這些樣本得出的估計量 也是隨機的,我們已經多次重申過這一點。既然是隨機的,那麼一個自然的結論是:根據樣本的不同,有些估計量可能偏大,有些可能偏小。反覆將這一估計量使用多次,就“平均”來說其偏差爲零。

  在科學技術中稱爲以作爲θ估計的系統誤差。無偏估計的實際意義就是無系統誤差。

 

  既然如此,是否意味着無偏估計一定好呢?通常來講是的,但也不盡然,比如下圖中,有偏的甲明顯更優於無偏的乙。

不同的無偏估計量

  設總體X服從指數分佈,概率密度爲:

  其中參數θ未知,X1, X2, …, Xm­是來自X的樣本,根據指數分佈的性質:

  因此樣本均值是參數θ的無偏估計量。

 

  然而估計量不止一種,下面的mZ也是θ的無偏估計量:

  Z具有概率密度:

  可見一個未知參數可能有不同的無偏估計量。

有效性

  同一個參數爲什麼會出現不同的無偏估計量呢?我們可以想象一個場景:任何人都可以估計明天的天氣,至於是否準確另當別論。同樣是估計天氣,氣象局的天氣預報顯然更準確。但就無偏性來說,普通人和天氣預報的平均偏差都爲0。這就好比甲乙二人的射擊比賽,甲的成績明顯高於乙,但無偏性卻告訴我們二者的成績相同,這顯然是荒謬的:

  對於上圖來說,誰的成績越接近靶心,誰的成績就越好,這也正是有效性的基本邏輯。對於參數θ的兩個無偏估計量,誰和θ更靠近,誰就越好。一種自然的方式是比較不同的無偏估計量與θ之差的絕對值,但是絕對值不易處理,於是使用平方誤差法,這也是一種常用的較爲簡便的方式。如果對於整體中的任意θ,都有:

  則稱 有效。

  再次強調的是,都是隨機值,因此才通過期望來去掉隨機性,進而比較二者誰更有效:

  另一個值得關注的問題是,有效性還強調了對於任意θ∈Θ都成立。如果總體參數θ中包含兩個待估計變量,只有當方案1的兩個估計量全部優於方案2時,才能說方案1比方案2更有效。

  對於上節的指數分佈來說:

  因此比mZ更有效。

相合性

  簡單而言,如果當樣本的容量增大時,估計量逐漸收斂於待估計參數的真實值,那麼稱是θ的相合估計量。

  相合性是對一個估計量的基本要求,如果估計量不具有相合性,那麼無論樣本的容量有多大,都無法將參數估計得足夠準確,這種估計已經有點近似於胡亂猜測。

優化的策略

  有了評選標準之後,我們就可以使用一些優化策略,找出最優估計量。

  無偏性爲估計量加上了限制,有了這條限制,大多數不太好的估計量會被排除。經過無偏性的篩選後,再使用有效性求得的最優解稱爲最小方差無偏估計量(uniformly minimum variance unbiased estimate,UMVUE)。

  儘管我們可以通過減少候選項的方式找出最優解,但需要認清的事實是,找到任何情況下都適用的全能最優解絕非易事。既然如此,不妨改變策略,弱化最優解的定義,只要滿足相合性和漸進有效性,就認爲這個解是可以接受的。

  漸進有效性:當樣本容量n→∞時, 收斂於理論邊界。

  最大似然估計就是這種策略下最常用的方案。

  在最小方差無偏估計中,我們實際上是想找到總分最優的估計量,但這種方法假設所有參數都是平等的,並沒有爲參數分配恰當的權重。貝葉斯估計採用了另一種思路應對這個問題。

  無論最小方差無偏估計還是最大似然估計,我們都認爲待估計參數θ是個確定的值,比如1949年10月1日中華人民共和國成立,這是一個明確的日期。而在貝葉斯估計中,把θ也看作一個變量,所求的是θ的分佈,也就是後驗分佈,如果後驗分佈較窄,則可信度較高,否則可信度較低。這類似於估計1949年10月1日中華人民共和國成立的概率是多少。貝葉斯估計的難點在於後驗概率的計算較爲複雜。關於更多先驗和後驗的問題將在後續章節陸續展開。

 


  出處:微信公衆號 "我是8位的"

  本文以學習、研究和分享爲主,如需轉載,請聯繫本人,標明作者和出處,非商業用途! 

  掃描二維碼關注作者公衆號“我是8位的”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章