方差分析爲多樣本檢驗,其核心爲假設檢驗,此外,方差分析還可以做多重比較。方差分析本身是一種假設檢驗,同時也是一種模型,是迴歸模型的特例,迴歸模型爲線性模型,方差分析爲一般線性模型。實際應用中方差分析單獨出現的可能性很小,一般在實驗設計場景用的較多,項目中用方差分析去支撐項目的情景基本不會出現。
方差分析分類
- 單因素方差分析
單因素方差分析用來研究一個因素的不同水平對觀測所產生的影響,例如不同澆水量對家裏綠蘿生長的影響、不同的省的日照差異對人的壽命的影響、不同工作時長對人情緒的影響等等,以上皆可以使用單因素方差分析的方法進行探索分析。
下面即爲其實現的SAS代碼:
SYMBOL1 INTERPOL=BOX VALUE=CIRCLE;
PROC GPLOT DATA=XUHUI.DATA;
PLOT InCome * Edu/
VAXIS=AXIS1
HAXIS=AXIS2;
RUN; QUIT;
- 單因子方差分析
單因子方差分析爲只考慮一個分類型自變量影響的方差分析,例如全家便利店的選址對營業額是否有顯著影響、不同學歷對收入的影響是否顯著等,這類問題都可以用單因子方差分析進行解決。
如下爲其實現的SAS代碼:
PROC GLM DATA=XUHUI.DATA ;
CLASS edu;
MODEL avg_exp= edu_class/
SS3
SS1
SS2
SS4
SOLUTION
SINGULAR=1E-07
;
lsmeans edu_class/pdiff;
RUN;
QUIT;
參數解釋:
- class參數告訴SAS軟件edu變量是因子
- SS形式表示離差平方和,離差平方和共有四種類型,一般默認的是第三種類型SS3,如果代碼中不進行說明,則默認爲SS3類型;
- solution意爲需在結果中顯示參數估計結果
- lsmeans表示多重比較,如果P值小於0.05則表示差異顯著,或者可以通過圖形來查看多重比較的結果,圖形的解讀方法爲 如果圖形中兩個相減等於0則表示他們相等,然後求出兩者均值差並做區間估計,如果區間包含0則有可能兩者相等,即不顯著,圖中的對角線即所謂的0,圖中各個斜線表示差的區間,如果對角線相交表示差異不顯著,這張圖很明顯都沒有與對角線虛線相交,如果相交則爲紅色,這裏表示均顯著。
- singular表示奇異值。在統計軟件的後臺計算過程全部都是矩陣計算,singular默認值爲1E-07
- 多因子方差分析
多因子方差分析爲考慮了多分類自變量影響的方差分析,這種分析會涉及到多因子交互的問題,例如收入是否受到學歷與性別的顯著影響,如下爲有交叉項的雙因素方差分析的SAS代碼:
PROC GLM DATA=XUHUI.DATA PLOTS(ONLY)=INTPLOT;
CLASS edu_class gender;
MODEL avg_exp=edu_class gender edu_class*gender/
SS3
SOLUTION
SINGULAR=1E-07
;
RUN;
OUTPUT OUT=WORK.PRED PREDICTED=predicted_avg_exp ;
RUN;
QUIT;
下圖中的殘差圖用於判斷方差分析是否符合假定,即下面的第一個小圖,這裏明顯出現了異方差,因此需要對因變量Y做一些變換處理,此處分佈爲正態分佈,故需對Y進行對數變換,目的是將右偏的數據往正態狀態拉一拉。如果分佈是水平、U型與J型分佈,對Y進行對數變換則不可行,需要進行Box-Cox變換。
我的公衆號:Data Analyst
個人網站:https://www.datanalyst.net/