方差分析

方差分析ANOVA-analysis of variance

方差分析的基本原理:主要是研究一個或多個分類變量對因變量的影響,並結合假設檢驗方法來解釋和分析自變量對因變量的影響是否具有顯著性。

所謂的假設,就是針對分類變量水平(總體),假設每個總體的均值是否相等或不完全相等,如果相等的話,那麼分類自變量對因變量的影響無顯著性,否則反之。

因素,俗稱‘變量’; 水平,俗稱‘變量取值’;

方差分析中有3個基本假定:

  1. 每個總體都應服從正態分佈;
  2. 各個總體的方差\large \sigma ^{2}必須相同;
  3. 觀測值是獨立的;

單因素方差分析(單變量方差分析)

單因素方差分析研究的是一個分類型自變量對一個數值型因變量的影響。

單因素方差分析-分析步驟

爲檢驗自變量對因變量是否有顯著影響,首先需要提出‘兩個變量在總體中沒有關係’的原假設,然後構造一個用於檢驗的統計量來檢驗這一假設是否成立。

在方差分析中,原假設所描述的是按照自變量的取值分成的類中,因變量的均值相等。因此,檢驗因素(自變量)的\large k個取值(水平)或(總體)的均值是否相等,需要提出以下假設:

(1)提出假設

\large H_{0}:\mu _{1}=\mu _{2}=...=\mu _{i}=...\mu _{k}               自變量對因變量沒有顯著影響

\large H_{1}:\mu _{i}(i=1,2,...,{k})                                  自變量對因變量有顯著影響

(2)構造檢驗的統計量

  • 計算各個水平(總體)的均值\large \bar{x}_{k}(自變量各個取值對應因變量的均值, \large k代表某個水平)
  • 計算全部觀測值的總均值\large \bar{\bar{x}}(即因變量的均值)
  • 計算各誤差平方和(總平方和、組間平方和、組內平方和)

總平方和SST,反映了全部觀測值與其均值之間的差異。

\large SST = \sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left ( x_{ij}-\bar{\bar{x}} \right )^{2}

組間平方和SSA,又稱因素平方和,它反映了各個水平(總體)的均值與全部觀測值的總均值之間的差異程度。

\large SSA=\sum_{i=1}^{k}n_{i}\left ( \bar{x_{i}}-\bar{\bar{x}} \right )^{2}

組內平方和SSE,又稱誤差平方和 或 殘差平方和,它是每個水平或組的各樣本數據與其組均值的誤差平方和,反映每個樣本個觀測值的離散程度,該平方和反映了隨機誤差的大小。

\large SSE=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left ( x_{ij}-\bar{x_{i}} \right )^{2}

 

三個平方和之間的關係爲:

SST = SSA + SSE

\large \sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left ( x_{ij}-\bar{\bar{x}} \right )^{2}=\sum_{i=1}^{k}n_{i}\left ( \bar{x_{i}}-\bar{\bar{x}} \right )^{2} +\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left ( x_{ij}-\bar{x_{i}} \right )^{2}

從三個誤差平方和可以看出,

SSA是對隨機誤差系統誤差大小的度量,它反映了自變量對因變量的影響,也稱爲自變量效應或因子效應;

SSE是對隨機誤差大小的度量,它反映了除自變量對因變量的影響之外其他因素對因變量的總影響,也稱爲殘差變量,它引起的誤差稱爲殘差效應;

SST是對全部數據總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因此它等於自變量效應加殘差效應。

  • 計算統計量

注意:由於各誤差平方和的大小與觀測值的多少有關,爲了消除觀測值多少對誤差平方和大小的影響,需要將其平均,也就是各平方和除以它們所對應的自由度,這一結果稱爲均方,也稱爲方差

\large n爲全部觀測值的個數;

\large k爲因素水平(總體)個數;

組間均方MSA:

\large MSA = \frac{SSA}{k-1}

組內均方MSE:

\large MSE = \frac{SSE}{n-k}

檢驗統計量F:

\large F = \frac{MSA}{MSE}\sim F(k-1, n-k)

(3)作出統計決策

根據給定的顯著性水平\large \alpha,在F分佈表中查找與分子自由度\large df_{1} = k-1、分母自由度\large df_{2} = n-k相應的臨界值\large F_{\alpha }\left ( k-1, n-k \right )

\large F>F_{\alpha },則拒絕原假設\large H_{0}:\mu _{1}=\mu _{2}=...=\mu _{k},表明\large \mu _{i}(i=1,2,...,k)之間的差異是顯著的,也就是說,所檢驗的因素對因變量有顯著影響;

\large F<F_{\alpha },則不拒絕原假設\large H_{0},沒有證據表明\large \mu _{i}(i=1,2,...,k)之間有顯著差異,也就是說,這時還不能認爲所檢驗的因素對觀測值有顯著影響;

雙因素方差分析(雙變量方差分析)

雙因素方差分析研究的是分類型自變量對一個數值型因變量的影響。

無交互式作用的雙因素方差分析(無重複雙因素分析)

無重複雙因素分析:假定兩個因素對因變量的影響是獨立的。

總平方和SST

\large SST = \sum_{i=1}^{k} \sum_{j=1}^{r}\left ( x_{ij}-\bar{\bar{x}} \right )^{2}

行因素誤差平方和SSR

\large SSR = \sum_{i=1}^{k} \sum_{j=1}^{r}\left (\bar{ x}_{i.}-\bar{\bar{x}} \right )^{2}

列因素誤差平方和SSC

\large SSC = \sum_{i=1}^{k} \sum_{j=1}^{r}\left (\bar{ x}_{.j}-\bar{\bar{x}} \right )^{2}

誤差平方和SSE

\large SSE = \sum_{i=1}^{k} \sum_{j=1}^{r}\left (x_{ij} - \bar{ x}_{i.}- \bar{ x}_{.j} + \bar{\bar{x}} \right )^{2}

上述各平方和的關係爲:

SST = SSR + SSC + SSE

\large n爲全部觀測值的個數;

\large k爲行因素水平(總體)個數;

\large r爲列因素水平(總體)個數;

行因素的均方MSR

\large MSR=\frac{SSR}{k-1}

列因素的均方MSC

\large MSC = \frac{SSC}{r-1}

隨機誤差項的均方MSE

\large MSE = \frac{SSE}{(k-1)(r-1)}

行因素的檢驗統計量\large F_{R}

\large F_{R} = \frac{MSR}{MSE} \sim F(k-1, (k-1)(r-1))

列因素的檢驗統計量\large F_{C}

\large F_{C} = \frac{MSC}{MSE} \sim F(r-1, (k-1)(r-1))

 

有交互式作用的雙因素方差分析(可重複雙因素分析)

注意: 考慮交互作用對因變量的影響。

總平方和SST

\large SST = \sum_{i=1}^{k} \sum_{j=1}^{r}\sum_{l=1}^{m}\left ( x_{ijl}-\bar{\bar{x}} \right )^{2}

行因素誤差平方和SSR

\large SSR = rm\sum_{i=1}^{k} \left (\bar{ x}_{i.}-\bar{\bar{x}} \right )^{2}

列因素誤差平方和SSC

\large SSC = km\sum_{j=1}^{r}\left (\bar{ x}_{.j}-\bar{\bar{x}} \right )^{2}

交互作用平方和SSRC

\large SSRC = m\sum_{i=1}^{k} \sum_{j=1}^{r}\left (\bar{x}_{ij} - \bar{ x}_{i.}- \bar{ x}_{.j} + \bar{\bar{x}} \right )^{2}

 

誤差平方和SSE

SSE = SST - SSR - SSC - SSRC

\large n爲全部觀測值的個數;

\large k爲行因素水平(總體)個數;

\large r爲列因素水平(總體)個數;

行因素的均方MSR

\large MSR=\frac{SSR}{k-1}

列因素的均方MSC

\large MSC = \frac{SSC}{r-1}

交互作用的均方MSE

\large MSRC = \frac{SSRC}{(k-1)(r-1)}

隨機誤差項的均方MSE

\large MSE = \frac{SSE}{kr(m-1)}

行因素的檢驗統計量\large F_{R}

\large F_{R} = \frac{MSR}{MSE} \sim F(k-1,kr(m-1))

列因素的檢驗統計量\large F_{C}

\large F_{C} = \frac{MSC}{MSE} \sim F(r-1,kr(m-1))

交互作用的檢驗統計量\large F_{RC}​​​​​​​

\large F_{RC} = \frac{MSRC}{MSE} \sim F((k-1)(r-1), kr(m-1))

發佈了21 篇原創文章 · 獲贊 6 · 訪問量 939
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章