[統計學筆記]（五）統計量及其抽樣分佈

統計量

統計學中最主要的提取信息的方式就是對原始數據進行一定的運算，得出某些代表性的數字，以反映數據某些方面的特徵，這種數字稱爲統計量。用統計學的語言表述就是：統計量是樣本的函數，它不依賴於任何未知參數。

推斷統計學的重要作用就是，通過從總體中抽取樣本構造適當的統計量，由樣本性質去推斷關於總體的性質。

統計量在統計學中具有極其重要的地位，它是統計推斷的基礎。統計量在統計學中的地位相當於隨機變量在概率論中的地位。

定義

設 $X_{1},X_{2},...,X_{n}$ 是從總體中抽取的容量爲n的一個樣本，如果由此樣本構造一個函數 $T(X_{1},X_{2},...,X_{n})$ ，不依賴與任何未知參數，則成函數 $T(X_{1},X_{2},...,X_{n})$ 是一個統計量。

通常又稱 $T(X_{1},X_{2},...,X_{n})$ 爲樣本統計量。當獲得樣本的一組具體觀測值 $x_{1},x_{2},...,x_{n}$ ，代入，計算 $T(X_{1},X_{2},...,X_{n})$ 的數值，就獲得一個具體的統計量值。

常用統計量

根據上述可知，統計量是樣本的一個函數，不同的推斷問題要求構造不同的統計量。要注意的是，依賴於總體分佈的未知參數不屬於統計量，比如數學期望和方差。

下列爲常用的統計量：

抽樣分佈

近代統計學創始人之人，英國統計學家費希爾曾把抽樣分佈、參數估計和假設檢驗看做統計推斷的三個中心內容。

若對任一自然數n都能導出統計量 $T(X_{1},X_{2},...,X_{n})$ 的分佈的數學表達式，這種分佈成爲精準的抽樣分佈。它對樣本量n較小的統計推斷問題非常有用。精準的抽樣分佈大多是在正態總體情況下得到的。在正態總條件下，主要有 $\chi ^{2}$ 分佈、分佈、分佈，常稱爲統計三大分佈。

抽樣分佈也稱統計量分佈、隨機變量函數分佈，是指樣本估計量的分佈。樣本估計量是樣本的一個函數，在統計學中稱作統計量，因此抽樣分佈也是指統計量的分佈。以樣本平均數爲例，它是總體平均數的一個估計量，如果按照相同的樣本容量，相同的抽樣方式，反覆地抽取樣本，每次可以計算一個平均數，所有可能樣本的平均數所形成的分佈，就是樣本平均數的抽樣分佈。

從已知的總體中以一定的樣本容量進行隨機抽樣，由樣本的統計數所對應的概率分佈稱爲抽樣分佈。

抽樣分佈是統計推斷的理論基礎。

三大抽樣分佈是數理統計上的三個重要分佈，由標準正態分佈的總體樣本組合而成。三大抽樣分佈一般是指：

卡方分佈（ $\chi ^{^{2}}$ 分佈）、
t 分佈
F分佈

卡方分佈（Chi-square distribution）

卡方分佈又叫：西格瑪分佈

設隨機變量 $X_{1},X_{2},...,X_{n}$ 相互獨立，且 $X_{i}(i=1,2,...,n)$ 服從標準正態分佈，則它們的平方和 $\sum_{i=1}^{n}X_{i}^{2}$ 服從自由度爲的 $\chi ^{2}$ 分佈。

自由度是統計學中常用的一個概念，它可以解釋爲獨立變量的個數，還可以解釋爲二次型的秩。例如， $Y=X^{2}$ 是自由度爲1的 $\chi ^{2}$ 分佈，； $Z=\sum_{i=1}^{n}X_{i}^{2}$ 是自由度爲的 $\chi ^{2}$ 分佈，。

定義：若n個相互獨立的隨機變量ξ₁，ξ₂，...,ξn ，均服從標準正態分佈（也稱獨立同分佈於標準正態分佈），則這n個服從標準正態分佈的隨機變量的平方和構成一新的隨機變量，其分佈規律稱爲卡方分佈（chi-square distribution）。

記爲： $\chi ^{2 }$ 分佈。

當自由度足夠大時， $\chi ^{2 }$ 分佈的概率密度曲線趨於對稱。當 $n \to \infty$ 時， $\chi ^{2 }$ 分佈的極限分佈是正態分佈。

t 分佈（t-distribution）

在概率論和統計學中，t-分佈（t-distribution）用於根據小樣本來估計呈正態分佈且方差未知的總體的均值。如果總體方差已知（例如在樣本數量足夠多時），則應該用正態分佈來估計總體均值。

設隨機變量 $X\sim N(0,1)$ ， $Y \sim \chi^2(n)$ ，且與獨立，則

$t=\frac{X}{\sqrt{Y/n}}$

其分佈稱爲分佈，記爲，其中爲自由度。

t 分佈曲線形態與n（確切地說與自由度df）大小有關。與標準正態分佈曲線相比，自由度df越小，t分佈曲線愈平坦，曲線中間愈低，曲線雙側尾部翹得愈高；自由度df愈大，t分佈曲線愈接近正態分佈曲線，當自由度df=∞時，t分佈曲線爲標準正態分佈曲線。

定義：設X1服從標準正態分佈N(0,1)，X2服從自由度爲n的χ2分佈，且X1、X2相互獨立，則稱變量t=X1(X2/n)1/2所服從的分佈爲自由度爲n的t分佈。

t 分佈的密度函數是一個偶函數，如下圖所示：

從上圖中可以看出，t 分佈的密度函數曲線與標準正態分佈N（0,1）的密度函數曲線非常相似，都是單峯偶函數。只是，t（n）的密度函數的兩側尾部要比N（0,1）的兩側尾部粗一些。t（n）的方差比N（0,1）的方差大一些。

自由度爲1的分佈稱爲柯西分佈，隨着自由度n的增加，t 分佈的密度函數越來越接近標準正態分佈的密度函數。實際應用中，一般當 $n\geq 30$ 時，t 分佈與標準正態分佈就非常接近。

F分佈

F分佈是1924年英國統計學家R.A.Fisher提出，並以其姓氏的第一個字母命名的。它是一種非對稱分佈，有兩個自由度，且位置不可互換。F分佈有着廣泛的應用，如在方差分析、迴歸方程的顯著性檢驗中都有着重要的地位。

設隨機變量和相互獨立，且和分別服從自由度爲和的 $\chi ^{2}$ 分佈，隨機變量有如下表達式：

$X=\frac{Y/m}{Z/n}=\frac{nY}{mZ}$

則稱服從第一自由度爲，第二自由度爲的分佈，記爲，簡記爲 $X\sim F(m,n)$ 。

定義：設X1服從自由度爲m的χ2分佈，X2服從自由度爲n的χ2分佈，且X1、X2相互獨立，則稱變量F=(X1/m)/(X2/n)所服從的分佈爲F分佈，其中第一自由度爲m，第二自由度爲n。

F分佈的密度函數如下圖所示：

在 F 分佈中，兩個自由度的位置不可以互換。這一性質在查 F分佈表時有重要應用。

F分佈與t分佈還存在如下關係：如果隨機變量 X 服從t（n）分佈，則 $X^{^{2}}$ 服從F（1，n）的 F分佈。這在迴歸分析的迴歸係數顯著性檢驗中有用。

正態分佈（Normal distribution）

正態分佈（Normal distribution），也稱“常態分佈”，又名高斯分佈（Gaussian distribution），最早由A.棣莫弗在求二項分佈的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分佈，在統計學的許多方面有着重大的影響力。
正態曲線呈鍾型，兩頭低，中間高，左右對稱因其曲線呈鐘形，因此人們又經常稱之爲鐘形曲線。

爲了便於描述和應用，常將正態變量作數據轉換。將一般正態分佈轉化成標準正態分佈。

若

服從標準正態分佈,通過查標準正態分佈表就可以直接計算出原正態分佈的概率值。故該變換被稱爲標準化變換。（標準正態分佈表：標準正態分佈表中列出了標準正態曲線下從-∞到X（當前值）範圍內的面積比例。）

正態分佈圖的圖形特徵
集中性：正態曲線的高峯位於正中央，即均數所在的位置。
對稱性：正態曲線以均數爲中心，左右對稱，曲線兩端永遠不與橫軸相交。
均勻變動性：正態曲線由均數所在處開始，分別向左右兩側逐漸均勻下降。
曲線與橫軸間的面積總等於1，相當於概率密度函數的函數從正無窮到負無窮積分的概率爲1。即頻率的總和爲100%。

實際工作中，常需要了解正態曲線下橫軸上某一區間的面積佔總面積的百分數，以便估計該區間的例數佔總例數的百分數（頻數分佈）或觀察值落在該區間的概率。正態曲線下一定區間的面積可以通過附表1求得。對於正態或近似正態分佈的資料，已知均數和標準差，就可對其頻數分佈作出概約估計。

查附表1應注意：①表中曲線下面積爲-∞到u的左側累計面積；②當已知μ、σ和X時先按式u=（X-μ）/σ求得u值，再查表，當μ、σ未知且樣本含量n足夠大時，可用樣本均數X1和標準差S分別代替μ和σ，按u=（X-X1）/S式求得u值，再查表；③曲線下對稱於0的區間面積相等，如區間（-∞，-1.96）與區間（1.96，∞）的面積相等，④曲線下橫軸上的總面積爲100%或1。

一般正態分佈與標準正態分佈的區別與聯繫

正態分佈也叫常態分佈，是連續隨機變量概率分佈的一種，自然界、人類社會、心理和教育中大量現象均按正態形式分佈，例如能力的高低，學生成績的好壞等都屬於正態分佈。它隨隨機變量的平均數、標準差的大小與單位不同而有不同的分佈形態。標準正態分佈是正態分佈的一種，其平均數和標準差都是固定的，平均數爲0，標準差爲1。

三大抽樣分佈與正態分佈的關係

與正態分佈一同構成數理統計中的四大分佈。由標準正態總體樣本的適當組合構成的統計量形成數理統計中的其他三大基礎分佈。所以，數理統計中總是以正態總體作爲研究對象展開。在數理統計中，"總體"、"抽樣"、"樣本"是三個基本概念，分位點是"小概率事件"發生的臨界點，置信區間是參數估計和假設檢驗的核心計算問題。

中心極限定理

中心極限定理的定義：

設從均值爲 $\mu$ 、方差爲 $\sigma ^2$ （有限）的任意一個總體中抽取樣本量爲的樣本，當充分大時，樣本均值 $\bar X$ 的抽樣分佈近似服從均值爲 $\mu$ 、方差爲 $\sigma ^2/n$ 的正態分佈，即 $\bar X\sim N(\mu,\frac{\sigma ^2}{n})$ ，等價有 $\frac{\bar X-\mu}{\sigma /\sqrt{n}}\sim N(0,1)$ 。

注意：的期望值與總體均值相同，而方差則縮爲總體方差的。這說明當用樣本均值去估計總體均值時，平均來說沒有偏差（這一點稱爲無偏性）；當越來越大時，的散佈程度越來越小，即用估計就越來越準確。

該定理告訴我們，不管總體的分佈是什麼，此時樣本均值的分佈總是近似正態分佈，只要總體的方差有限。

如上的定理要求必須充分大，那麼多大才叫充分大？這與總體分佈形狀有關，總體偏離正態越遠，則要求越大。然而在實際應用中，總體的分佈未知。此時，我們常要求 $n\geq 30$ 。

計算題 1

以上例題來源：《統計學（第7版）》，賈俊平，何曉羣，金勇進編著，中國人民大學出版社。P124頁的例題。

計算題 2

某鋼鐵廠生產某種鋼管，現從該廠某月生產的500根產品中抽取一個容量爲100根的樣本。已知一級品率爲60%，試求樣本一級品率的抽樣平均誤差。

解答：已知p=60% ，N=500，n=100，

則在重複抽樣下：

$\large \sigma \left ( p \right ) = \sqrt{p\times \left ( 1-p \right )/n} = \sqrt{0.6\times \left ( 1-0.6 \right )/100} = 0.049$ ，即4.9%

在不重複抽樣下：

$\large \sigma \left ( p \right ) = \sqrt{\frac{p \times \left ( 1-p \right )}{n}\times \left ( 1-\frac{n}{N} \right )} = \sqrt{\frac{0.6 \times \left ( 1-0.6 \right )}{100}\times \left ( 1-\frac{100}{500} \right )} = 0.044$

即：4.4%

計算題 3

設從一個均值 $\mu = 10$ ，標準差 $\sigma = 0.6$ 的總體中隨機選取容量的樣本。假定該總體不是很偏，要求：

（1）計算樣本均值 $\overline{X}$ 小於 9.9 的近似概率

（2）計算樣本均值 $\overline{X}$ 超過 9.9 的近似概率

（3）計算樣本均值 $\overline{X}$ 在總體均值 $\mu = 10$ 附近 0.1 範圍內的近似概率。

解答：根據中心極限定理，不論總體的分佈是什麼形狀，在假定總體分佈不是很偏的情況下，當從總體中隨機選取的樣本時，樣本均值 $\overline{X}$ 服從均值 $\mu _{x} = \mu = 10$ ，標準差 $\sigma _{x} = \frac{\sigma }{\sqrt{n}} = \frac{0.6}{\sqrt{36}} = 0.1$ 的正態分佈，即：

$\overline{X}$ ~ $N\left ( 10,0.1^{2} \right )$

（1） $P\left ( \overline{X}< 9.9 \right ) = P\left ( \frac{\overline{X}-10}{0.1}< \frac{9.9-10}{0.1} \right ) = P\left ( Z<\frac{-0.1}{0.1} \right ) = P\left ( Z< -1 \right ) = 1-P\left ( Z< 1 \right ) = 1-\phi \left ( 1 \right ) = 1-0.8413 = 0.1587$

（2） $P\left ( \overline{X}> 9.9 \right ) = 1-P\left ( \overline{X}\leq 9.9 \right ) = 1-0.1587 = 0.8413$

（3） $P\left ( 9.9< \overline{X} < 10.1\right ) =P\left ( \frac{9.9-10}{0.1} < \frac{\overline{X}-10}{0.1}< \frac{10.1-10}{0.1}\right ) = P\left ( Z-\frac{10.1-10}{0.1} \right ) - P\left ( Z-\frac{9.9-10}{0.1} \right ) = P\left ( Z< 1 \right ) - P \left ( Z< -1 \right ) = 2P\left ( Z< 1 \right ) -1 = 2\phi \left ( 1 \right ) -1 = 2 \times 0.8413 -1 = 0.6826$

思考題

1. 什麼是統計量？爲什麼要引進統計量？統計量中爲什麼不含任何未知參數？
統計量：設𝑋1,𝑋2,···,𝑋𝑛是從總體 𝑋總抽取的容量爲 𝑛的一個樣本，如果由此樣本構造一個函數 𝑇(𝑋1,𝑋2,···,𝑋𝑛)，不依賴於任何未知參數，則稱函數 𝑇(𝑋1,𝑋2,···,𝑋𝑛)是一個統計量。
由樣本構造具體的統計量，實際上是對樣本信息進行加工並集中到統計量的取值上，便於通過統計量推斷總體參數。由於樣本已經抽出，故統計量總是知道的，因此統計量不含有任何未知參數。

2. 簡述 𝜒2分佈、 𝑡分佈、 F 分佈及正態分佈之間的關係。
正態分佈： $Z= \frac{X-\mu }{\sigma }$ ~ $N\left (0,1 \right )$ ，則 𝑋~𝑁(𝜇, $\sigma ^{2}$ )