[數據分析] 參數和統計量

原創

2020-06-14 13:30

討論參數估計之前，先對參數這事情是什麼（參數的定義）做個說明。

我們之前講過，統計學研究的一大主題就是“用樣本來科學地推斷整體”。通常來講呢，整體大部分由於種種原因無法做到普查，我們只能（無奈地）選擇觀察樣本，也就是“抽樣”。抽完樣，我們就有了一份“樣本”。注意，這裏的樣本一是要保證隨機性，一是要能力上可以處理。隨機性需要花時間解釋，這裏先按下不表。可以籠統地認爲“無任何特定目的”地抽取樣本，有目的就有人爲因素，結果就可能被這個特定目的帶到坑裏了。能力上可以處理就應該比較容易理解，不能處理的樣本沒有什麼現實意義。

好，有了一份（或者多份，看玩家有沒有充值648，錢多就能多份，錢少只能一份，呵呵）“能夠處理”且“隨機抽樣”的樣本。那麼，就可以用統計的方式來計算樣本統計量了。什麼是統計量？針對這個樣本，平均數是統計量，中位數是統計量，方差是統計量。有點明白了麼？現實中，我們可以拿到的真實數據，往往就是樣本的，然後計算這個樣本統計量。爲啥叫統計量？當然因爲“能夠處理”的樣本才能被統計，而“無法直接處理”的整體，我們根本抓不到、摸不着啊～

所以，我們把整體對應樣本的統計量叫做參數。簡單點講，樣本的平均數是一個統計量；此樣本對應的整體的平均數，則是一個參數。參數的集合就是這個整體的統計特徵集，或者可以認爲我們用參數集合描述了這個整體。就好像相親，我們用 [身高，年齡，體重，性別，年收入，家裏有沒有礦] 描述了某個潛在對象。

樣本的平均數是不是就等於整體的平均數呢？當然不會絕對的等於。但是，我們認爲這個統計量“在一定的條件下”會“基本上”等於整體的參數，也就是樣本的平均數可以被認爲是整體的平均數。這樣衛健委調查某幾所小學的男孩平均身高和標準差，就可以推斷全市，甚至全國的同等年齡段的男孩的平均身高和標準差了。

這裏要多提一個概念，自由度。我們上次講的方差公式還記得不？

$\sigma ^2 = \sum_{1}^n(x-\bar{x} )^2 /n$

可以看到分母是n，但這個公式是計算整體的方差的（有時候，整體不大，也能處理，我們就直接算了，不需要抽樣在統計推斷了）。樣本方差的計算稍有不同，分母變成了n-1。

$\sigma ^2=\sum_{1}^n(s-\bar s)^2/n-1$

最大的變化就是分母不再是除以n而是n-1，爲什麼？這裏就有自由度的概念。統計學中，幾乎所有的方法和指標都會涉及自由度的概念，因爲它和例數有關。自由度的字面概念就是：可以自由取值的數值的個數（df）。舉個簡單的例子，a+b+c=10。這個公式中，如果a和b都自由取值，那麼一旦a和b確定了，c就不能再自由了，c=10-a-b。所以，c是“不自由”的。這個式子的自由度，不是3（雖然有三個自變量），而是2。

要站在巨人的肩膀上麼！前代的統計學家已經證明，如果樣本的統計量要對整體做“無偏估計”，那麼自由度必須減1。

順便提一句t檢驗中的理論基礎t分佈就是一組按自由度排列的類鐘形曲線，當自由度超過“30”的時候就可以認爲近似正態分佈。30這個數字是不是對很多人很熟悉啊？哈哈哈。今天到此。下次繼續參數估計。至於30，這個和中心極限有關，慢慢來。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[數據分析] 參數和統計量

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

[數據分析] 參數和統計量

[數據分析] 方差和標準差

[數據分析] 樣本、抽樣和整體，也說說對統計的理解

複雜

[數據分析] 緣起與目錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結