統計學第八週：參數統計

統計學：參數估計

概念

1.利用總體統計不方便甚至是無法完成的現實狀況，採用抽樣的方式，利用樣本提供的信息來推斷總體的特徵。

2.點估計：point estimate, 用樣本統計量的某個取值直接作爲總體參數的估值。

但一個點估計值的可靠性是由它的抽樣標準誤差來衡量的，這表明一個具體的點估計值無法給出估計的可靠性的度量。

當圍繞點估計值構造總體參數的一個區間，這就是區間估計。

3.區間估計：interval estimate ,在點估計的基礎上，給出總體參數估計的一個區間範圍，該區間通常由樣本統計量加減估計誤差得到。

根據樣本統計量的抽樣分佈可以對樣本統計量與總體參數的接近程度給出一個概率度量。

在區間估計中，由樣本統計量所構成的總體參數的估計區間稱爲置信區間，其中區間的最小值稱爲置信下限，最大值稱爲置信上限。

置信水平：將構造置信區間的步驟重複多次，置信區間中包含總體參數真值的次數所佔的比例，稱爲置信水平 confidence level ，也稱爲置信度或置信係數。

如果用某種方法構造的所有區間中有95%的區間包含總體參數的真值，5%的區間不包括總體參數的真值，那麼用該方法構造的區間稱爲置信水平位95%的置信區間。

評價估計量的標準

🔽無偏性：指估計量抽樣分佈的數學期望等於被估計的總體參數。
$設總體參數位\theta ,所選擇的估計量爲 \vec{\theta} ,如果E(\vec{\theta}) = \theta,則稱\vec{\theta} 爲\theta 的無偏估計量。$

🔽有效性：一個無偏的估計量並不意味着它就非常接近被估計的參數，它還必須與總體參數的離散程度比較小。有效性efficiency是指對同一總體參數的兩個無偏估計量，有更小標準差的估計量更有效。在無偏估計的條件下，估計量的方差越小，估計就越有效。

🔽一致性：指隨着樣本量的增大，估計量的值越來越接近被估計總體的參數。

5. 一個總體參數的區間估計
研究一個總體時，關心的參數主要有總體均值，總體比例，總體方差等。那麼如何用樣本統計量來構造一個總體參數的置信區間。

5.1 總體均值的區間估計

在對總體均值進行區間估計時，需要考慮總體是否爲正態分佈，總體方差是否已知，用於構造估計量的樣本是大樣本（30及其以上），還是小樣本等情況。
🔽1正態總體/方差已知，或非正態總體/大樣本

當總體服從正態分佈且方差已知時，或者總體不是正態分佈但爲大樣本時，樣本均值的抽樣分佈均爲正態分佈，其數學期望爲總體均值
$\mu ,方差爲 \sigma^2/n。而樣本均值經過標準化以後的隨機變量服從標準正態分佈，$

$即 z=\frac{\vec{x}-\mu}{\sigma/\sqrt{n}}服從N(0,1)$

$在上面公式和正態分佈的性質可以看出總體均值\mu，在1-a置信水平下的置信區間爲\overline{x} \pm z_{a/2}\frac{\sigma}{\sqrt{n}}$

$\overline{x}-z_{a/2}\frac{\sigma}{\sqrt{n}}稱爲置信下限，\overline{x}+z_{a/2}\frac{\sigma}{\sqrt{n}}稱爲置信上限，a也稱爲風險值$

$它是總體均值不包括在置信區間內的概率；1-a稱爲置信水平；z_{a/2}是標準正態分佈右側面積爲a/2時的z值；z_{a/2}\frac{\sigma}{\sqrt{n}}是估計總體均值時的估計誤差 estimate error。$

這就是總體均值的置信區間由兩部分組成：點估計值和描述估計量精度的正負值，這個正負值稱爲估計誤差。

如果總體服從正態分佈但方差未知，或總體並不服從正態分佈，只要是在大樣本條件下，總體方差就可以用樣本方差來代替，這時總體均值在1-a置信水平下的置信區間可以寫爲：
$\overline{x} \pm z_{a/2}\frac{s}{\sqrt{n}} ,樣本方差s^2$
🔽 2正態總體，方差未知，小樣本

如果總體服從正態分佈，則無論樣本量如何，樣本均值的抽樣分佈都服從正態分佈。這時只要總體方差已知，即使是在小樣本的情況下，也可以按照上面建立總體均值的置信區間。但如果樣本方差未知，而且是在小樣本情況下，則需要用樣本方差代替總體方差，這時樣本均值經過標準化以後的隨機變量服從自由度爲（n-1）的t分佈，即：
$t=\frac{\overline{x}-\mu}{s/\sqrt{n}}服從t(n-1)分佈$
需要採用t分佈來建立總體均值u的置信區間。根據t分佈建立的總體均值u在1-a置信水平下的置信區間爲：
$\overline{x}\pm t_{a/2}\frac{s}{\sqrt{n}},t_{a/2}是自由度爲n-1時，t分佈中右側面積爲a/2時的t值。$

總結：

5.2 總體比例的區間估計

在大樣本情況下總體比例的估計問題，由樣本比例p的抽樣分佈可知，當樣本量足夠大時，比例p的抽樣分佈可用正態分佈近似。
$P的數學期望E(P)=\pi ;p 的方差爲\sigma_p^{2}=\frac{\pi(1-\pi)}{n}。樣本比例經標準化後的隨機變量服從標準正態分佈，即$

$z=\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}服從N（0，1）$

與總體均值的區間估計類似，在樣本比例P的基礎上加減估計誤差
$z_{a/2}\sigma_p,即得總體比例\pi在1-a置信水平下得置信區間爲 p\pm z_{a/2}\sqrt{\pi(1-\pi)/n}$

$用計算總體比例\pi 的置信區間時，\pi 值應該時已知的。但實際情況不然，\pi值恰好是要估計的，所以需用樣本比例p來代替\pi。這時，總體比例的置信區間可表示爲 p\pm z_{a/2}\sqrt{p(1-p)/n}$

$式子中，a是顯著性水平，z_{a/2}是標準正態分佈右側面積爲a/2時的z值；z_{a/2}\sqrt{p(1-p)/n}是估計總體比例時的估計誤差。$

$對於總體比例的估計，確定樣本量足夠大的一般經驗規則時：區間p\pm2\sqrt{p(1-p)/2}中不包含0或1，或者要求np\geq 5和 n(1-p)\geq5$

5.3 總體方差的區間估計

針對正態總體方差的估計問題：根據樣本方差的抽樣分佈可知，樣本方差服從自由度爲n-1的卡方分佈構造總體方差的置信區間。

$可推導出總體方差\sigma^2 在1-a置信水平下的置信區間爲，\frac{(n-1)s^2}{\chi_{a/2}^{2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi_{1-a/2}^{2}}$

兩個總體參數的區間估計

6.1 兩個總體均值之差的區間估計
$設兩個總體的均值分別爲\mu_1,\mu_2，從兩個總體中分別抽取樣本量n_1,n_2的兩個隨機樣本，其樣本均值分別爲\overline{x_1},\overline(x_2)。兩個總體均值之差\mu_1-\mu_2的估計量顯然是兩個樣本的均值之差 \overline{x_1}-overline{x_2}$
🔽 大樣本的估計：如果兩個樣本是從兩個總體中獨立抽取的，即一個樣本的元素與另一個樣本中的元素相互獨立，則成爲獨立樣本independent sample 。如果兩個總體都爲正態分佈，或兩個總體不服從正態分佈但兩個樣本都爲大樣本（樣本數均大於等於30），根據樣本抽樣的知識可知，兩個樣本均值之差的抽樣分佈服從期望值爲
$\mu_1-\mu_2,方差爲（\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}）等正態分佈，兩個樣本均值之差經標準化後服從標準正態分佈，即z=\frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}},服從N（0，1）$
當兩個總體的方差都已知時，兩個總體均值之差在1-a置信水平下的置信區間爲
$（\overline{x_1}-\overline{x_2}）\pm z_{a/2}\sqrt{\sigma_1^2/n1+\sigma_2^2/n2}$
當兩個總體的方差均未知時，可用兩個樣本方差
$s_1^2,s_2^2來代替，這時，兩個總體均值之差\mu_1-\mu_2在1-a置信水平下的置信區間爲（\overline{x_1}-\overline{x_2}）\pm z_{a/2}\sqrt{s_1^2/n_1+s_2^2/n_2}$
🔽小樣本的估計：在兩個樣本都爲小樣本的情況下，爲估計兩個總體的均值之差，需要做出一下假定（1）兩個總體都服從正態分佈；（2）兩個隨機樣本獨立分別抽自兩個總體。這裏分爲兩個情況，一種是兩個總體方差已知，另一種時方差未知：

6.2 兩個總體均值之差的估計：匹配樣本

  使用匹配樣本進行估計時，分爲大樣本條件，和小樣本情況：

大樣本條件，兩個總體均值之差
$\mu_d=\mu_1-\mu_2 在1-a置信水平下的置信區間爲 \overline{d}\pm z_{a/2}\frac{\sigma_d}{\sqrt{n}},d表示兩個匹配樣本對應數據的插值；\overline{d}表示各差值的均值,\sigma_d表示各差值的標準差。當總體的\sigma_d未知時，可用樣本差值的標準差s_d代替$
小樣本情況下，假定兩個總體各觀察值的配對差服從正態分佈。兩個總體均值之差
$\mu_d=\mu_1-\mu_2 在1-a置信水平下的置信區間爲 \overline{d}\pm t_{a/2}(n-1)\frac{s_d}{\sqrt{n}}$
6.3 兩個總體比例之差的區間估計

由樣本比例的抽樣分佈可知，從兩個二項總體中抽出兩個獨立的樣本，則兩個樣本比例之差的抽樣分佈服從正態分佈。兩個樣本的比例之差經標準化後服從標準正態分佈，即
$Z=\frac{(p_1-p_2)-(\pi_1-\pi_2)}{\sqrt{\frac{\pi_1(1-\pi)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2}}}$
當總體比例未知時，可用樣本比例p1和p2來代替，因此正態分佈建立的兩個總體比例之差在1-a置信水平下的置信區間爲：
$（p_1-p_2）\pm z_{a/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$
6.4 兩個總體方差比的區間估計
由於兩個樣本方差比的抽樣分佈服從
$F(n_1-1,n_2-1)分佈，因此可用F分佈來構造兩個總體方差比\frac{\sigma_1^2}{\sigma_2^2}的置信區間$