概率論2---參數估計

利用樣本的信息對總體做推斷
這裏的推斷是怎麼回事?
推斷包括了統計估計和假設檢驗兩部分
其中
統計估計 是估計總體的分佈或者數字特徵
這其實是要做兩件事情:
  1. 總體分佈未知,我要對它的分佈做估計,這叫做非參數估計
  2. 總體分佈已知或者已經通過非參數估計求出來了,只需要對其中的未知參數做估計
你可能會說還有一個數字特徵呢!數字特徵主要是涉及到分佈裏面的參數,參數求出來了,數字特徵自然可以求出來

對總體的分佈做估計通過經驗分佈函數與直方圖,不是重點,不講

接下來到對參數的估計,參數的估計主要包括兩大類方法:點估計和區間估計。
點估計是要求參數的估計量。區間估計則是從精確性和可靠性的角度來對參數做估計。點估計相對來講是比較粗糙的。同時,點估計也是一種特殊的區間估計,所以我們做參數估計其實是在做區間估計。那爲什麼點估計有單獨拿出來講的必要呢?是因爲點估計簡單直觀,使用方便麼?

參數的估計量=構造的統計量
一個估計量對應多個估計值,一個估計值對應一個樣本觀測值…(或者說,估計量的實質還是一個統計量?)

點估計主要包括矩估計和極大似然估計法
矩估計的核心思想就是用樣本原點矩來代替總體原點矩
極大似然估計法就是要求得似然函數的最大值,可能要求導數或者偏導,也有可能是求順序統計量

我們通過點估計求出來了估計量以後,估計量可能有好有差。我們怎麼去定義"好",主要是通過三個方面的指標:無偏性,相合性,有效性

其中,無偏性和相合性都是針對的參數的估計值與參數的真值之間的誤差來做文章。不同的是,相合性是對單次抽樣的誤差小於任意小的正數,將誤差控制在一個很小很小的範圍。無偏性是針對多次的抽樣,希望多次抽樣的誤差均值能夠越小越好,θ尖–θ的期望能夠越小越好。越小就意味着我偏離的幅度就可能越小。特別的,當這個誤差均值爲0,也就是當參數的估計值θ的期望就等於真值θ,我們就說它是無偏的。無偏意味着真值θ兩邊的估計值是以θ爲中心而對稱的。當然,也有很大可能不是對稱的,只是正好左右兩邊正負之和相互抵消。

那這個時候可能會出現一種一邊選的點落得少而選,另一邊要近而多,我們不太喜歡它,並且那種少而遠的點我們覺得其實可能是出現了什麼問題,和我們的真值θ是不太匹配的。所以我們希望我們的點能夠落在一個真值附近的範圍裏面,並且我們也希望知道我們的這個估計量可靠不可靠。比如說那個遠的點就是不怎麼可靠的。這些就是區間估計的內容。

回到估計量的優良這個問題上,我們繼續解釋。簡單提一下有效性,它是以無偏性爲前提的。有效性暫時省略

不能滿足無偏時,我們可以有漸進無偏,估計值的期望在n→∞的時候等於真值θ

我們說,點估計的主要有兩個方面的問題:一是我們不知道估計的誤差範圍是多少,也就是沒有精確性的概念。二是我們做出的這個估計有多大的可靠性,也就是可靠性。不同的估計之間的可靠性是不同的,比如說這個估計量有95%的可靠度,另外一個是80%。我們說兩個估計量都是可以使用的,只是95的那個更加可靠。那區間估計是怎麼解決這兩個問題的?

區間估計將參數的估計量看做隨機變量,那麼我們就可以從隨機變量的分佈來考慮這個問題。我們嘗試確定一個包含了待估參數的隨機變量,而這個隨機變量的分佈是已知的,比如標準正態分佈,t分佈,卡方分佈,F分佈

我們嘗試從樣本來確定兩個統計量/分位數來"卡"住估計參數,將參數的波動範圍控制在某一個區間之內,這個區間就是我們的置信區間,區間的寬度反應了估計的精度/誤差範圍。當然,我們的樣本並不能完全地落到這個區間裏面,這樣在就會有一個區間內和區間外的概率。我們將區間外的概率用α來表示,那麼區間內的概率就是1–α了,這就是我們的置信度,或者可以理解成落在置信區間內的概率,這就反映了估計量的可靠程度。

簡言之,區間估計就是希望找到兩個統計量,真值落在這兩個統計量組成的區間裏面的概率是1-α
區間估計的可靠性和精確性是相互矛盾的。精確性提高,那就意味着區間寬度減小,而估計量的分佈是不變的,所以這個時候夾住的這部分面積就會減小,也就是可靠度會下降。如果提高可靠度,那也就意味着不斷地把兩個估計值分別向兩個無窮的方向延伸,這個時候估計量的取值範圍會變更大,精確性就會變差。

區間估計主要注意6個不同的正態總體分佈的情況,又可以細分爲一個總體和兩個總體的情況,各三種。這裏的公式應該和第一張裏面的抽樣分佈定理聯繫起來。

另外,對於即將到來的假設檢驗,還有一個很重要的問題是:參數估計和假設檢驗之間有什麼關係?

這個問題的答案引用知乎上用戶“niaocu”的回答:
二者都屬於推斷統計——利用樣本的數據得到樣本統計量(statistic),然後做出對總體參數(parameter)的推斷。

不同之處在於:用統計量推斷參數時,如果參數未知,則這種推斷叫參數估計(點估計與區間估計)——用統計量估計未知的參數;如果參數已知(或假設已知),需要利用統計量檢驗已知的參數是否可靠,此時的統計推斷即爲假設檢驗


鏈接:https://www.zhihu.com/question/25724748/answer/35285731

這樣,我們就能知道參數估計是在做什麼,假設檢驗是在做什麼了!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章