方差分析ANOVA-analysis of variance
方差分析的基本原理:主要是研究一個或多個分類變量對因變量的影響,並結合假設檢驗方法來解釋和分析自變量對因變量的影響是否具有顯著性。
所謂的假設,就是針對分類變量水平(總體),假設每個總體的均值是否相等或不完全相等,如果相等的話,那麼分類自變量對因變量的影響無顯著性,否則反之。
因素,俗稱‘變量’; 水平,俗稱‘變量取值’;
方差分析中有3個基本假定:
- 每個總體都應服從正態分佈;
- 各個總體的方差
必須相同;
- 觀測值是獨立的;
單因素方差分析(單變量方差分析)
單因素方差分析研究的是一個分類型自變量對一個數值型因變量的影響。
單因素方差分析-分析步驟
爲檢驗自變量對因變量是否有顯著影響,首先需要提出‘兩個變量在總體中沒有關係’的原假設,然後構造一個用於檢驗的統計量來檢驗這一假設是否成立。
在方差分析中,原假設所描述的是按照自變量的取值分成的類中,因變量的均值相等。因此,檢驗因素(自變量)的個取值(水平)或(總體)的均值是否相等,需要提出以下假設:
(1)提出假設
自變量對因變量沒有顯著影響
自變量對因變量有顯著影響
(2)構造檢驗的統計量
- 計算各個水平(總體)的均值
(自變量各個取值對應因變量的均值,
代表某個水平)
- 計算全部觀測值的總均值
(即因變量的均值)
- 計算各誤差平方和(總平方和、組間平方和、組內平方和)
總平方和SST,反映了全部觀測值與其均值之間的差異。
組間平方和SSA,又稱因素平方和,它反映了各個水平(總體)的均值與全部觀測值的總均值之間的差異程度。
組內平方和SSE,又稱誤差平方和 或 殘差平方和,它是每個水平或組的各樣本數據與其組均值的誤差平方和,反映每個樣本個觀測值的離散程度,該平方和反映了隨機誤差的大小。
三個平方和之間的關係爲:
SST = SSA + SSE
從三個誤差平方和可以看出,
SSA是對隨機誤差和系統誤差大小的度量,它反映了自變量對因變量的影響,也稱爲自變量效應或因子效應;
SSE是對隨機誤差大小的度量,它反映了除自變量對因變量的影響之外其他因素對因變量的總影響,也稱爲殘差變量,它引起的誤差稱爲殘差效應;
SST是對全部數據總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因此它等於自變量效應加殘差效應。
- 計算統計量
注意:由於各誤差平方和的大小與觀測值的多少有關,爲了消除觀測值多少對誤差平方和大小的影響,需要將其平均,也就是各平方和除以它們所對應的自由度,這一結果稱爲均方,也稱爲方差。
爲全部觀測值的個數;
爲因素水平(總體)個數;
組間均方MSA:
組內均方MSE:
檢驗統計量F:
(3)作出統計決策
根據給定的顯著性水平,在F分佈表中查找與分子自由度
、分母自由度
相應的臨界值
。
若,則拒絕原假設
,表明
之間的差異是顯著的,也就是說,所檢驗的因素對因變量有顯著影響;
若,則不拒絕原假設
,沒有證據表明
之間有顯著差異,也就是說,這時還不能認爲所檢驗的因素對觀測值有顯著影響;
雙因素方差分析(雙變量方差分析)
雙因素方差分析研究的是兩個分類型自變量對一個數值型因變量的影響。
無交互式作用的雙因素方差分析(無重複雙因素分析)
無重複雙因素分析:假定兩個因素對因變量的影響是獨立的。
總平方和SST
行因素誤差平方和SSR
列因素誤差平方和SSC
誤差平方和SSE
上述各平方和的關係爲:
SST = SSR + SSC + SSE
爲全部觀測值的個數;
爲行因素水平(總體)個數;
爲列因素水平(總體)個數;
行因素的均方MSR
列因素的均方MSC
隨機誤差項的均方MSE
行因素的檢驗統計量
列因素的檢驗統計量
有交互式作用的雙因素方差分析(可重複雙因素分析)
注意: 考慮交互作用對因變量的影響。
總平方和SST
行因素誤差平方和SSR
列因素誤差平方和SSC
交互作用平方和SSRC
誤差平方和SSE
SSE = SST - SSR - SSC - SSRC
爲全部觀測值的個數;
爲行因素水平(總體)個數;
爲列因素水平(總體)個數;
行因素的均方MSR
列因素的均方MSC
交互作用的均方MSE
隨機誤差項的均方MSE
行因素的檢驗統計量
列因素的檢驗統計量
交互作用的檢驗統計量