統計學~方差分析【第十週】

概述

通過對數據誤差來源的分析檢驗各總體的均值是否相等來判斷分類型的自變量對數值型的因變量是否有顯著影響。
因素:即因子,所要檢驗的對象
水平:又稱處理,即因素的不同表現
觀測值:每個因子水平下得到的樣本數據
僅有一個因素的方差分析稱爲單因素方差分析,包含兩個因素的方差分析稱爲雙因素方差分析,兩個以上的稱爲多因素方差分析

例題

消費者與產品生產者、銷售者或服務的提供者之間經常發生糾紛。爲了對幾個行業的服務質量進行評價,消費者協會在零售業,旅遊業,航空公司,家電製造業分別抽取了不同的企業作爲樣本。一共抽取了23家企業,統計出消費者對總共23家企業投訴的次數,結果如下表所示:

樣本 零售業 旅遊業 航空公司 家電製造業
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58

消費者協會想知道這幾個行業之間的服務質量是否有顯著差異,實際是是判斷行業對被投訴次數是否有顯著影響,即要檢驗這四個行業被投訴次數的均值是否相等。
如果均值相等,則意味這服務質量沒有顯著性差異。
如果均值不全相等,則意味着行業對被投訴次數是有影響的,服務質量是有顯著性差異的。

回顧方差分析的定義:是對數據誤差來源的分析,來判斷均值是否相等。所以在進行方差分析之前,需要考慮數據誤差的來源

誤差分解

組內誤差:由於抽樣的隨機性所造成的隨機誤差,即來自水平內部的數據誤差,反映一個樣本內部數據的離散程度,只含有隨機誤差。例如:總體數據分佈有[40,41,100,42]等,抽樣時剛好抽到[40,100]。
組間誤差:來自不同水平之間的誤差,這種誤差包括抽樣本身的誤差和行業本身系統性因素造成的系統誤差。例如:可能航空公司的投訴次數本身就比旅遊業低。

對於方差分析來說:數據的誤差時用平方和表示的。即:
SST=SSE+SSA SST = SSE + SSA
總平方和(SST):反應全部數據誤差大小的平方和,反應全部觀測值的離散狀況。
組內平方和(SSE):反應組內誤差大小的平方和,也稱誤差平方和或殘差平方和,反映的是每個樣本內各觀測值的離散狀況。
組間平方和(SSA):反應組間誤差大小的平方和,也稱因素平方和,反映樣本均值的差異。

均方:各平方和除以他們所對應的自由度,也稱爲方差。
此時:
若原假設成立,組間誤差中將只包含隨機誤差,組間均方與組內均方的數值就會很接近,比值就會接近於1。
若原假設不成立,組間誤差中將既包含隨機誤差又包含系統誤差,組間均方會大於組內均方,他們之間的比值將大於1。
當比值大於某種程度(α\alpha)時,就可以說不同水平之間存在顯著差異。
這個比值服從分子自由度爲n-1,分佈自由度爲n-k的F分佈
F=MSAMSEF(k1,nk) F = \frac{MSA}{MSE} \sim F(k-1,n-k)

解題

上題中,因素是行業,水平是不同行業的不同表現,觀測值是具體的被投訴次數。
涉及兩個變量:
一個是分類型自變量,如行業
一個是數值型自變量,如被投訴次數
方差分析就是要研究行業對被投訴次數是否有顯著影響

步驟

步驟和假設檢驗中的類似,區別是在於構建統計量的異同。

第一步:建立原假設和備擇假設
分別使用ABCD來代替零售業,旅遊業,航空公司,家電製造業。
H0:μA=μB=μC=μD H_0 : \mu_A = \mu_B = \mu_C = \mu_D H1: H_1 : 四個行業的投訴均值不全相等
第二步:選擇合適的顯著性水平
默認爲 α=0.05\alpha=0.05
第三步:選擇合適的抽樣分佈及其統計量
方差分析適用的都是F分佈和F統計量
第四步:從總體中抽取隨機樣本,計算P值

1.計算每種行業的樣本均值(XA,XB,XC,XD\overline{X_A},\overline{X_B},\overline{X_C},\overline{X_D}),以及所有樣本的均值XZ\overline{X_Z}
XA=57+66+49+40+345=49.2 \overline{X_A} = \frac{57+66+49+40+34}{5} = 49.2 XB=47.4\overline{X_B} = 47.4XC=35\overline{X_C} = 35XD=59\overline{X_D} = 59XZ=47.65 \overline{X_Z} = 47.65

2.計算組間方差MSA、組內方差MSE以及F值

組間平方和:
SSA=i=1kni(XiXZ)2 SSA = \displaystyle \sum^{k}_{i = 1}{n_i(\overline{X_i} - \overline{X_Z} )^2} SSA=1456.55 SSA = 1456.55
組內平方和:
SSE=i=1kj=1ni(XijXi)2 SSE = \displaystyle \sum^{k}_{i = 1} \sum^{n_i}_{j= 1}{(X_{ij} - \overline{X_i})^2}SSE=2656 SSE = 2656
MSA=SSAk1=1456.55/(41)=485.5 MSA = \frac{SSA}{k-1} = 1456.55/(4-1) = 485.5MSE=SSAnk=2656/(204)=166 MSE = \frac{SSA}{n-k} = 2656/(20-4) = 166 F=MSAMSE=485.4/166=2.92F(3,16) F = \frac{MSA}{MSE} = 485.4/166 = 2.92,自由度爲F(3,16)
3.查詢F分佈表
α=0.05\alpha=0.05時,分佈表如下:

在這裏插入圖片描述
第五步:進行判別,得出結論
可以看到,在自由度(3,16)時,置信度爲95%的值爲3.24,2.92<3.24,所以我們接受原假設的概率爲95%,所以接受原假設。所以行業對被投訴次數沒有顯著影響。

參考

應統考研知識點之方差分析基本原理
應用統計考研432統計學核心考點之單因素方差分析
統計學——單因素方差分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章