抽樣分佈的概念

隨機抽樣(Random Sampling)和隨機變量(Random Variable)

我們想研究一個總體(Population)或叫母體的某些參數(Parameter),比如均值(平均特徵)、方差(分散的特徵)、中位數(比例的特徵),我們很多情況下,不能把所有的個體分別研究,例如我們想研究中國的成年女性罩杯的大小,總不能把所有中國女人的胸都兩個兩個拿來測吧?所以,我們只能抽樣。相對的,如果全面地,一個一個地查,那叫普查。通常,樣本總體可能太大,甚至就是抽象無限的,所以普查不可行,我們只能抽樣。可是,我們要研究的是總體的特徵啊,你只給我個抽樣的,你怎麼給我保證,你的抽樣能代表總體?這是一個關鍵的問題。這裏有兩個前提,第一是,抽樣這個行爲必須是隨機的;第二是,樣本中的每個個體有相同的概率被抽中。這兩點可以統一歸納爲一個名詞–隨機抽樣(Random Sampling)。通過隨機抽樣抽出的樣本,例如,我們抽n 個,他們就是這個總體的容量爲n 的隨機樣本,記爲

X1,X2,X3,,Xn,
其中每個Xi,i=1,2,,n 爲一個服從總體分佈的隨機變量(Random Variable),每一個隨機變量是獨立同分布(Independent and Identically Distributed,i.i.d. or iid or IID)的。什麼是獨立?獨立就是抽取樣本的這個行爲互相之間沒有影響。可是我們都知道,在概率論裏我們經常研究的抽小球的問題中,如果小球抽出不放回,則每次的抽取是會影響總體分佈的,不同的抽取實驗之間也是不獨立的。而很多時候我們抽樣是不放回的,例如,意見徵求的調查中,我們不希望重複問到一個人,這樣的抽樣是不放回的。所以照這樣分析,這個抽樣是獨立的嗎?實際上,對於抽樣我們有一個隱含的無限總體假設,那就是當樣本數 n 和總體個數 N 之比小於 5% 時,即 nN<0.05 時,可以認爲總體是無限的,此時抽取出來的樣本可以視作對總體分佈無影響。我們也可以從一個例子來理解這件事,例如,小明有1000塊錢,如果我跟他借50塊錢,可能他會覺得不痛不癢,可是如果小明只有100塊錢,我還是借50塊錢,可能他第二天就要找我算賬了,就是這個道理,所有有時候我們也可以把這個假設理解成爲借錢假設。那什麼是同分布呢?先囉嗦地說一下變量服從分佈是什麼意思吧。我自己在這一點的理解一開始就是有偏差的,我當時想不明白一個隨機變量服從分佈是什麼意思,一個分佈不是要畫成一條曲線嗎,至少應該有很多點纔可以描成一條曲線,然後畫出來的曲線像是某個分佈的曲線才叫服從吧。實際上,一個變量確實是沒辦法畫成一條曲線,但是卻不妨礙它成爲曲線的一部分,而我們知道,例如正態分佈(Normal Distribution)的曲線,是中間高,兩邊矮,意思是說在中間分佈的比較密集,兩邊比較稀疏,我們的變量服從這個分佈,要求的是抽取出來的這個變量的屬性會符合這個分佈所描述的特性,例如從所有中國成年男性隨機抽取一個人,按照總體的分佈,這個人的身高在170cm 概率是比較高的,如果這個人的身高是一個服從總體分佈的隨機變量,那麼這個變量的取值的概率應該是和總體取各值的概率是相近的,這樣就叫服從分佈。所以,這些隨機變量同分布的意思就是,他們取到各個值的概率,都符合總體分佈中取到各個值的概率。

一般大學裏都是先教概率論再教統計,所以有時候容易忽略總體的數據是難以獲得的這一現實,因爲在概率論中我們都假設總體就服從某一分佈,然後來研究它的一些特性和相關定理和計算的問題。雖然我們不知道總體的分佈,但它卻是本身就存在的,我們做抽樣,就是要用抽樣樣本的統計特性去估計總體的特性。也是爲了達成這個目的,我們需要隨機抽樣,這些被抽取出來的樣本,每個都是一個隨機變量,它們之間是相互獨立且同分布與總體的分佈的。反過來說,總體分佈和這些隨機變量的分佈也是同分布的,從這裏也許我們可以發掘出一些抽樣數據的意義。

抽樣分佈大致概念

我們首先要區別總體和樣本關於某些特性的不同,下面列舉三個最常見最重要的三個特徵–平均特徵、分散性特徵、分佈比例特徵:

總體參數樣本統計量μX¯σS2pp^

上表從上到下分別對應均值、方差、比例三個特性,在總體中我們管它們叫參數,在抽樣的樣本中我們叫統計量。它們有什麼區別?總體的這些參數,之所以敢叫參數,是因爲它們是有把握確定的。例如統計全體中國公民的身高,我把十三四億人的身高全測了一遍,一個不漏,來算平均值,我可以很有自信的說,這就是中國所有公民的平均身高。這樣算出來的均值,它可以爲你研究這個總體提供一個參考,因此也配得上叫參數。但樣本就不一樣所以,首先樣本容量肯定是小於而且基本上是遠小於總體容量的,比方說我們樣本容量 n=500 好了,那麼我一次抽500個人,有可能求出來的平均身高是 175cm ,可是我下一次抽,可能只有 160cm 了。

所以說,總體的參數,是這個總體固有的,與生俱來的,例如給定一個總體的身高,它的平均身高也就定了,而抽樣的統計量卻是根據抽樣不同而不同的,可能有時候抽的高有時候抽的矮,是有誤差的。更進一步的,這些抽樣的統計量,如X¯,S2,p^ ,它們還是隨機變量。例如,總體是中國全體公民,每次抽500個人算平均身高(就把每個樣本身高累加除以500),這個身高是一個隨機變量(實際上,它就是這些樣本的函數,當然會是隨機變量,因爲這些樣本都是服從整體分佈的隨機變量),這個隨機變量可能大可能小,但它服從一定的分佈。這些抽樣統計量的分佈情況,就叫做抽樣分佈

抽樣分佈–統計量的分佈

有了以上的基礎,我們以統計量的均值和方差爲例,簡要討論它們的抽樣分佈。它們的計算式如下:

X¯=i=1nXi
S2=i=1n(XiX¯)2(n1)

樣本均值很好理解,就是把所有的樣本值相加除以樣本容量。但方差要除以 n1 可能就不太好理解了。既然說討論分佈,我們理所應當就應該討論一下它們的特性,例如均值,方差等。

對,就是要討論“均值的均值”。

我們說了,以測量身高爲例,可能這個均值一會兒大一會兒小,因此,單個樣本的均值是沒多大意義的。但是我們也說了這個樣本的均值是服從一定分佈的。例如我們原來的樣本服從標準正態分佈,那麼可以想象的是這個均值也一定會服從正態分佈,不過就不一定是標準的了。還是以身高爲例吧,假設我們的樣本容量是500,我們就把抽500個人測身高算一次實驗,那麼我們做多次實驗,每次實驗算平均身高,再把這些平均身高再平均一次,假設我們的實驗足夠多,最後肯定會得到跟總體一樣的平均身高吧。這其實說明了一件事,那就是

E[X¯]=μ
即樣本的均值的期望等於總體的期望。可以這樣理解,對,我們抽500個人,是偶爾會抽到高一點的500個人,但總不可能每次都抽到的都高吧,同理,不可能每次抽到的都矮吧(這裏高矮相對總體期望而言),肯定是各種情況都有一點,但是,綜合起來,肯定是跟總體的期望差不多的。

那如何理解方差的計算呢?方差就是差異的大小嘛,差異就是跟期望比嘛,我們實在是沒有期望,就只好和樣本均值比咯。但是我認爲關鍵的地方是要理解爲什麼要除以一個數。我們還是抽500個人,在中國,要你在街上找1個185的人,很輕鬆吧,至少不難。要你同時找10個,平均身高185,可能有點難,但還是可能的。這時,我告訴你,給我找500個平均身高185的人……拜託,中國成年男性2010年人口普查平均身高才167……所以嘛,如果500個人,均值要爲185,是比隨機抽一個人,或10個人均值爲185的難度都要大很多對不對,因此,它肯定是更集中分佈,也就是那種本來總體就比較少的情況,在樣本的均值裏面更加小概率出現了。因此它的方差肯定是更小了,要除一個數,那麼除什麼呢,除 n1 。爲什麼?可以看這裏
暫時沒時間寫了,遛了……

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章