隨機抽樣(Random Sampling)和隨機變量(Random Variable)
我們想研究一個總體(Population)或叫母體的某些參數(Parameter),比如均值(平均特徵)、方差(分散的特徵)、中位數(比例的特徵),我們很多情況下,不能把所有的個體分別研究,例如我們想研究中國的成年女性罩杯的大小,總不能把所有中國女人的胸都兩個兩個拿來測吧?所以,我們只能抽樣。相對的,如果全面地,一個一個地查,那叫普查。通常,樣本總體可能太大,甚至就是抽象無限的,所以普查不可行,我們只能抽樣。可是,我們要研究的是總體的特徵啊,你只給我個抽樣的,你怎麼給我保證,你的抽樣能代表總體?這是一個關鍵的問題。這裏有兩個前提,第一是,抽樣這個行爲必須是隨機的;第二是,樣本中的每個個體有相同的概率被抽中。這兩點可以統一歸納爲一個名詞–隨機抽樣(Random Sampling)。通過隨機抽樣抽出的樣本,例如,我們抽 個,他們就是這個總體的容量爲 的隨機樣本,記爲
一般大學裏都是先教概率論再教統計,所以有時候容易忽略總體的數據是難以獲得的這一現實,因爲在概率論中我們都假設總體就服從某一分佈,然後來研究它的一些特性和相關定理和計算的問題。雖然我們不知道總體的分佈,但它卻是本身就存在的,我們做抽樣,就是要用抽樣樣本的統計特性去估計總體的特性。也是爲了達成這個目的,我們需要隨機抽樣,這些被抽取出來的樣本,每個都是一個隨機變量,它們之間是相互獨立且同分布與總體的分佈的。反過來說,總體分佈和這些隨機變量的分佈也是同分布的,從這裏也許我們可以發掘出一些抽樣數據的意義。
抽樣分佈大致概念
我們首先要區別總體和樣本關於某些特性的不同,下面列舉三個最常見最重要的三個特徵–平均特徵、分散性特徵、分佈比例特徵:
上表從上到下分別對應均值、方差、比例三個特性,在總體中我們管它們叫參數,在抽樣的樣本中我們叫統計量。它們有什麼區別?總體的這些參數,之所以敢叫參數,是因爲它們是有把握確定的。例如統計全體中國公民的身高,我把十三四億人的身高全測了一遍,一個不漏,來算平均值,我可以很有自信的說,這就是中國所有公民的平均身高。這樣算出來的均值,它可以爲你研究這個總體提供一個參考,因此也配得上叫參數。但樣本就不一樣所以,首先樣本容量肯定是小於而且基本上是遠小於總體容量的,比方說我們樣本容量 好了,那麼我一次抽500個人,有可能求出來的平均身高是 ,可是我下一次抽,可能只有 了。
所以說,總體的參數,是這個總體固有的,與生俱來的,例如給定一個總體的身高,它的平均身高也就定了,而抽樣的統計量卻是根據抽樣不同而不同的,可能有時候抽的高有時候抽的矮,是有誤差的。更進一步的,這些抽樣的統計量,如 ,它們還是隨機變量。例如,總體是中國全體公民,每次抽500個人算平均身高(就把每個樣本身高累加除以500),這個身高是一個隨機變量(實際上,它就是這些樣本的函數,當然會是隨機變量,因爲這些樣本都是服從整體分佈的隨機變量),這個隨機變量可能大可能小,但它服從一定的分佈。這些抽樣統計量的分佈情況,就叫做抽樣分佈。
抽樣分佈–統計量的分佈
有了以上的基礎,我們以統計量的均值和方差爲例,簡要討論它們的抽樣分佈。它們的計算式如下:
樣本均值很好理解,就是把所有的樣本值相加除以樣本容量。但方差要除以 可能就不太好理解了。既然說討論分佈,我們理所應當就應該討論一下它們的特性,例如均值,方差等。
對,就是要討論“均值的均值”。
我們說了,以測量身高爲例,可能這個均值一會兒大一會兒小,因此,單個樣本的均值是沒多大意義的。但是我們也說了這個樣本的均值是服從一定分佈的。例如我們原來的樣本服從標準正態分佈,那麼可以想象的是這個均值也一定會服從正態分佈,不過就不一定是標準的了。還是以身高爲例吧,假設我們的樣本容量是500,我們就把抽500個人測身高算一次實驗,那麼我們做多次實驗,每次實驗算平均身高,再把這些平均身高再平均一次,假設我們的實驗足夠多,最後肯定會得到跟總體一樣的平均身高吧。這其實說明了一件事,那就是
那如何理解方差的計算呢?方差就是差異的大小嘛,差異就是跟期望比嘛,我們實在是沒有期望,就只好和樣本均值比咯。但是我認爲關鍵的地方是要理解爲什麼要除以一個數。我們還是抽500個人,在中國,要你在街上找1個185的人,很輕鬆吧,至少不難。要你同時找10個,平均身高185,可能有點難,但還是可能的。這時,我告訴你,給我找500個平均身高185的人……拜託,中國成年男性2010年人口普查平均身高才167……所以嘛,如果500個人,均值要爲185,是比隨機抽一個人,或10個人均值爲185的難度都要大很多對不對,因此,它肯定是更集中分佈,也就是那種本來總體就比較少的情況,在樣本的均值裏面更加小概率出現了。因此它的方差肯定是更小了,要除一個數,那麼除什麼呢,除 。爲什麼?可以看這裏
暫時沒時間寫了,遛了……