概述
通過對數據誤差來源的分析檢驗各總體的均值是否相等來判斷分類型的自變量對數值型的因變量是否有顯著影響。
因素:即因子,所要檢驗的對象
水平:又稱處理,即因素的不同表現
觀測值:每個因子水平下得到的樣本數據
僅有一個因素的方差分析稱爲單因素方差分析,包含兩個因素的方差分析稱爲雙因素方差分析,兩個以上的稱爲多因素方差分析。
例題
消費者與產品生產者、銷售者或服務的提供者之間經常發生糾紛。爲了對幾個行業的服務質量進行評價,消費者協會在零售業,旅遊業,航空公司,家電製造業分別抽取了不同的企業作爲樣本。一共抽取了23家企業,統計出消費者對總共23家企業投訴的次數,結果如下表所示:
樣本 | 零售業 | 旅遊業 | 航空公司 | 家電製造業 |
---|---|---|---|---|
1 | 57 | 68 | 31 | 44 |
2 | 66 | 39 | 49 | 51 |
3 | 49 | 29 | 21 | 65 |
4 | 40 | 45 | 34 | 77 |
5 | 34 | 56 | 40 | 58 |
消費者協會想知道這幾個行業之間的服務質量是否有顯著差異,實際是是判斷行業對被投訴次數是否有顯著影響,即要檢驗這四個行業被投訴次數的均值是否相等。
如果均值相等,則意味這服務質量沒有顯著性差異。
如果均值不全相等,則意味着行業對被投訴次數是有影響的,服務質量是有顯著性差異的。
回顧方差分析的定義:是對數據誤差來源的分析,來判斷均值是否相等。所以在進行方差分析之前,需要考慮數據誤差的來源
誤差分解
組內誤差:由於抽樣的隨機性所造成的隨機誤差,即來自水平內部的數據誤差,反映一個樣本內部數據的離散程度,只含有隨機誤差。例如:總體數據分佈有[40,41,100,42]等,抽樣時剛好抽到[40,100]。
組間誤差:來自不同水平之間的誤差,這種誤差包括抽樣本身的誤差和行業本身系統性因素造成的系統誤差。例如:可能航空公司的投訴次數本身就比旅遊業低。
對於方差分析來說:數據的誤差時用平方和表示的。即:
總平方和(SST):反應全部數據誤差大小的平方和,反應全部觀測值的離散狀況。
組內平方和(SSE):反應組內誤差大小的平方和,也稱誤差平方和或殘差平方和,反映的是每個樣本內各觀測值的離散狀況。
組間平方和(SSA):反應組間誤差大小的平方和,也稱因素平方和,反映樣本均值的差異。
均方:各平方和除以他們所對應的自由度,也稱爲方差。
此時:
若原假設成立,組間誤差中將只包含隨機誤差,組間均方與組內均方的數值就會很接近,比值就會接近於1。
若原假設不成立,組間誤差中將既包含隨機誤差又包含系統誤差,組間均方會大於組內均方,他們之間的比值將大於1。
當比值大於某種程度()時,就可以說不同水平之間存在顯著差異。
這個比值服從分子自由度爲n-1,分佈自由度爲n-k的F分佈
解題
上題中,因素是行業,水平是不同行業的不同表現,觀測值是具體的被投訴次數。
涉及兩個變量:
一個是分類型自變量,如行業
一個是數值型自變量,如被投訴次數
方差分析就是要研究行業對被投訴次數是否有顯著影響
步驟
步驟和假設檢驗中的類似,區別是在於構建統計量的異同。
第一步:建立原假設和備擇假設
分別使用ABCD來代替零售業,旅遊業,航空公司,家電製造業。
第二步:選擇合適的顯著性水平
默認爲
第三步:選擇合適的抽樣分佈及其統計量
方差分析適用的都是F分佈和F統計量
第四步:從總體中抽取隨機樣本,計算P值
1.計算每種行業的樣本均值(),以及所有樣本的均值
2.計算組間方差MSA、組內方差MSE以及F值
組間平方和:
組內平方和:
3.查詢F分佈表
時,分佈表如下:
第五步:進行判別,得出結論
可以看到,在自由度(3,16)時,置信度爲95%的值爲3.24,2.92<3.24,所以我們接受原假設的概率爲95%,所以接受原假設。所以行業對被投訴次數沒有顯著影響。