[數據分析] 參數和統計量

討論參數估計之前,先對參數這事情是什麼(參數的定義)做個說明。

我們之前講過,統計學研究的一大主題就是“用樣本來科學地推斷整體”。通常來講呢,整體大部分由於種種原因無法做到普查,我們只能(無奈地)選擇觀察樣本,也就是“抽樣”。抽完樣,我們就有了一份“樣本”。注意,這裏的樣本一是要保證隨機性,一是要能力上可以處理。隨機性需要花時間解釋,這裏先按下不表。可以籠統地認爲“無任何特定目的”地抽取樣本,有目的就有人爲因素,結果就可能被這個特定目的帶到坑裏了。能力上可以處理就應該比較容易理解,不能處理的樣本沒有什麼現實意義。

好,有了一份(或者多份,看玩家有沒有充值648,錢多就能多份,錢少只能一份,呵呵)“能夠處理”且“隨機抽樣”的樣本。那麼,就可以用統計的方式來計算樣本統計量了。什麼是統計量?針對這個樣本,平均數是統計量,中位數是統計量,方差是統計量。有點明白了麼?現實中,我們可以拿到的真實數據,往往就是樣本的,然後計算這個樣本統計量。爲啥叫統計量?當然因爲“能夠處理”的樣本才能被統計,而“無法直接處理”的整體,我們根本抓不到、摸不着啊~

所以,我們把整體對應樣本的統計量叫做參數。簡單點講,樣本的平均數是一個統計量;此樣本對應的整體的平均數,則是一個參數。參數的集合就是這個整體的統計特徵集,或者可以認爲我們用參數集合描述了這個整體。就好像相親,我們用 [身高,年齡,體重,性別,年收入,家裏有沒有礦] 描述了某個潛在對象。

樣本的平均數是不是就等於整體的平均數呢?當然不會絕對的等於。但是,我們認爲這個統計量“在一定的條件下”會“基本上”等於整體的參數,也就是樣本的平均數可以被認爲是整體的平均數。這樣衛健委調查某幾所小學的男孩平均身高和標準差,就可以推斷全市,甚至全國的同等年齡段的男孩的平均身高和標準差了。

這裏要多提一個概念,自由度。我們上次講的方差公式還記得不?

\sigma ^2 = \sum_{1}^n(x-\bar{x} )^2  /n

可以看到分母是n,但這個公式是計算整體的方差的(有時候,整體不大,也能處理,我們就直接算了,不需要抽樣在統計推斷了)。樣本方差的計算稍有不同,分母變成了n-1。

\sigma ^2=\sum_{1}^n(s-\bar s)^2/n-1

最大的變化就是分母不再是除以n而是n-1,爲什麼?這裏就有自由度的概念。統計學中,幾乎所有的方法和指標都會涉及自由度的概念,因爲它和例數有關。自由度的字面概念就是:可以自由取值的數值的個數(df)。舉個簡單的例子,a+b+c=10。這個公式中,如果a和b都自由取值,那麼一旦a和b確定了,c就不能再自由了,c=10-a-b。所以,c是“不自由”的。這個式子的自由度,不是3(雖然有三個自變量),而是2。

要站在巨人的肩膀上麼!前代的統計學家已經證明,如果樣本的統計量要對整體做“無偏估計”,那麼自由度必須減1。

順便提一句t檢驗中的理論基礎t分佈就是一組按自由度排列的類鐘形曲線,當自由度超過“30”的時候就可以認爲近似正態分佈。30這個數字是不是對很多人很熟悉啊?哈哈哈。今天到此。下次繼續參數估計。至於30,這個和中心極限有關,慢慢來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章