統計學習-抽樣分佈

常用統計量:

樣本均值

樣本均值(sample mean)又叫樣本均數。即爲樣本的均值。均值是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。它是反映數據集中趨勢的一項指標。

樣本方差

先求出總體各單位變量值與其算術平均數離差的平方,然後再對此變量取平均數,就叫做樣本方差。樣本方差用來表示一列數的變異程度。樣本均值又叫樣本均數。即爲樣本的均值。

樣本變異係數

變異係數,又稱“離散係數”(英文:coefficient of variation),是概率分佈離散程度的一個歸一化量度,其定義爲標準差\ \sigma平均值之比

樣本K階矩&樣本k階中心距

樣本來自總體,攜帶了總體的部分信息。進行統計分析和推斷時,要使用樣本攜帶的信息推斷總體的概率性質,但樣本帶來的信息往往是分散凌亂的,需要集中整理加工後才便於利用.有一類常用的統計量是樣本的數字特徵,他們是模擬總體數字特徵構造的,稱爲樣本矩。樣本矩主要包括樣本均值、未修正樣本方差、樣本(修正)方差、樣本k階原點矩和樣本k階中心距。

樣本偏度

偏度衡量實數隨機變量概率分佈的不對稱性。偏度的值可以爲正,可以爲負或者甚至是無法定義。在數量上,偏度爲負(負偏態)就意味着在概率密度函數左側的尾部比右側的長,絕大多數的值(不一定包括中位數在內[1])位於平均值的右側。偏度爲正(正偏態)就意味着在概率密度函數右側的尾部比左側的長,絕大多數的值(不一定包括中位數[1])位於平均值的左側。偏度爲零就表示數值相對均勻地分佈在平均值的兩側,但不一定意味着其爲對稱分佈.

樣本峯度

峯度(Kurtosis)衡量實數隨機變量概率分佈的峯態。峯度高就意味着方差增大是由低頻度的大於或小於平均值的極端差值引起的

次序統計量

設 X1,X2, …, Xn是取自總體X的樣本,X(i) 稱爲該樣本的第i個次序統計量,它的取值是將樣本觀測值由小到大排列後得到的第i個觀測值。從小到大排序爲x(1),x(2), …,x(n),則稱X(1),X(2), …,X(n)爲順序統計量。

充分統計量

對於給定的統計推斷問題,包含了原樣本中關於該問題的全部有用信息的統計量。對於未知參數的估計問題,保留了原始樣本中關於未知參數θ的全部信息的統計量,就是充分統計量。如樣本均值X是總體數學期望的充分統計量。數學上,設(X₁, …,Xₑ)是來自總體X的一個隨機樣本,T=T(X₁, …,Xₑ)是一統計量。若在T=t的條件下,樣本的條件分佈與未知參數θ無關,則稱統計量T是θ的充分統計量。 

常用抽樣分佈:

卡方分佈

 分佈在數理統計中具有重要意義。 分佈是由阿貝(Abbe)於1863年首先提出的,後來由海爾墨特(Hermert)和現代統計學的奠基人之一的卡·皮爾遜(C K.Pearson)分別於1875年和1900年推導出來,是統計學中的一個非常有用的著名分佈。

若n個相互獨立的隨機變量ξ₁,ξ₂,...,ξn ,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個服從標準正態分佈的隨機變量的平方和構成一新的隨機變量,其分佈規律稱爲卡方分佈(chi-square distribution)

T分佈

概率論統計學中,t-分佈t-distribution)用於根據小樣本來估計呈正態分佈且方差未知的總體的均值。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分佈來估計總體均值。 [1] 

t分佈曲線形態與n(確切地說與自由度df)大小有關。與標準正態分佈曲線相比,自由度df越小,t分佈曲線愈平坦,曲線中間愈低,曲線雙側尾部翹得愈高;自由度df愈大,t分佈曲線愈接近正態分佈曲線,當自由度df=∞時,t分佈曲線爲標準正態分佈曲線。

F分佈

F分佈是1924年英國統計學家R.A.Fisher提出,並以其姓氏的第一個字母命名的。它是一種非對稱分佈,有兩個自由度,且位置不可互換。F分佈有着廣泛的應用,如在方差分析、迴歸方程的顯著性檢驗中都有着重要的地位。

中心極限定理

樣本均值的抽樣分佈是所有的樣本均值形成的分佈,即μ的概率分佈。樣本均值的抽樣分佈在形狀上卻是對稱的。隨着樣本量n的增大,不論原來的總體是否服從正態分佈,樣本均值的抽樣分佈都將趨於正態分佈,其分佈的數學期望爲總體均值μ,方差爲總體方差的1/n。這就是中心極限定理(central limit theorem)

樣本比例的抽樣分佈

從同一總體中取得的所有大小爲n的可能樣本,由這些樣本的比例形成的一個分佈,就是比例的抽樣分佈。用Ps代表樣本比例的隨機變量。比例的抽樣分佈其實就是一種概率分佈,由所有大小爲n的可能樣本的各種比例構成。如果我們知道這些比例的分佈,就能利用這個分佈求出一個特定樣本的比例的發生概率。+通俗地解釋:比例的抽樣分佈要解決的是“已知總體的相關參數,要求解某樣本比例的發生概率”的問題&oq=從同一總體中取得的所有大小爲n的可能樣本,由這些樣本的比例形成的一個分佈,就是比例的抽樣分佈。用Ps代表樣本比例的隨機變量。比例的抽樣分佈其實就是一種概率分佈,由所有大小爲n的可能樣本的各種比例構成。如果我們知道這些比例的分佈,就能利用這個分佈求出一個特定樣本的比例的發生概率。++通俗地解釋:比例的抽樣分佈要解決的是“已知總體的相關參數,要求解某樣本比例的發生概率”的問題

兩個樣本平均值之差的分佈

這要分兩種情況:總體方差是否已知。

如果總體方差已知,則樣本均值可以構建下面的統計量

這個統計量服從標準正態分佈N(0,1)。

如果總體方差未知,則可以用樣本方差代替總體方差,構建下面的統計量

這個統計量服從t-分佈t(n-1),n-1爲自由度。t-分佈的形狀與自由度有關,自由度越小,則分佈曲線越“胖”,自由度越大,分佈曲線約接近正態分佈。一般在自由度超過30時,基本上就和正態分佈差不多了,也可以用正態分佈來分析

樣本方差的分佈&兩個樣本方差比的分佈

卡方分佈是針對單個正態總體的樣本方差分佈,依據總體均值μ是否已知分爲兩種情況。

如果總體均值μ已知,則樣本方差可以構建以下的統計量

這個統計量服從分佈,自由度爲n

如果總體均值μ未知,則用樣本均值來代替,這樣上述統計量就改爲

這個統計量服從分佈,自由度爲n-1。兩個統計量自由度差1個,是因爲在總體均值未知時需要用樣本均值來估計,用掉了1個自由度。

F-分佈是針對兩個正態總體的樣本方差之比的分佈。

假設兩個獨立的正態總體方差相等,在這兩個總體中分別抽取1個樣本,樣本量分佈爲mn,用兩個樣本方差構建以下的統計量

這個統計量服從分子自由度爲m-1,分母自由度爲n-1的F(m-1,n-1)分佈。

F-分佈應用非常廣泛,尤其是在判斷兩總體方差是否相等以及方差分析中,在迴歸分析和DOE中也有重要的應用。

根據這幾個分佈的性質,還可以導出其它的統計量,比如兩個均值之差的分佈等,感興趣的請參考相關的書籍,這裏不再贅述。

對於服從二項分佈的總體比例來說,樣本的比例同樣服從二項分佈。當npn(1-p)均大於5時,可以用正態來近似,其均值和方差分別爲

這些統計量及其分佈非常重要,是很多統計分析方法的基礎。通過計算樣本的相關統計量,可以依據這些統計量的分佈做出恰當的判斷。在比較分析中,大家會看到上面列出的這些統計量的大量應用。

 

參考文獻:

賈俊平 中國人民大學出版社 統計學第七版

百度百科

維基百科

樣本比例的抽樣分佈

抽樣分佈篇之七:抽樣分佈總結

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章