數據不符合正態分佈怎麼處理呢

在實際研究中,很多時候都需要數據滿足正態分佈纔可以。比如說迴歸分析,其實做迴歸分析有一個前提條件即因變量需要滿足正態分佈性。也比如說方差分析,其有一個潛在的前提假定即因變量Y需要滿足正態分佈。還有很多種情況,比如T檢驗,相關分析等等。

但這種情況往往被分析人員忽略掉,或者是數學基本不夠紮實,也或者無論如何數據均不滿足正態分佈等客觀條件,也或者其它情況等。如果說沒有滿足前提條件,分析的結果會變得不科學嚴謹,分析結論會受到置疑。

哪些研究方法需要數據滿足正態分佈纔行呢?以及如果不滿足正態分佈時應該如何處理呢?接下來會逐步說明。

 

第一:需要滿足正態分佈的幾類常見研究方法:

常見會涉及五種研究方法,它們對正態性要求相對較高,如果不滿足正態性則會有對應的處理。

 

  • 線性迴歸分析

線性迴歸分析,很多時候也稱迴歸分析。其對正態性的要求較爲嚴格,包括因變量Y需要滿足正態性要求,同時殘差也需要滿足正態性。如果說因變量Y不滿足正態分佈,通常情況下有以下幾種處理辦法。

第1:對因變量Y取對數處理(包括自然對數和10爲底的對數);這可以在SPSSAU的生成變量功能裏面找到;

第2:如果數據接近於正態分佈,則接受其爲正態分佈性。此種情況較多,因爲在研究影響關係時,線性迴歸最適合,如果不進行線性迴歸,通常情況下很難有更適合的研究方法。因而很多時候只要數據接受於正態性即可,而不用強求數據完美的正態,事實上在生活中絕對的“正態性”並不存在。使用正態分佈檢驗方法進行驗證正態性最爲嚴苛,因而可使用正態分佈圖直觀查看數據分佈情況,接近於“正態分佈”更符合實際情況;

第3:加大樣本量;有時候數據太少時,即使正態分佈的數據,也因爲樣本小沒有辦法覆蓋各種情況,從而變得不正態,因而加大樣本量會減少這種情況產生。

 

  • pearson 相關分析

Pearson相關分析(也稱皮爾遜相關分析,很多時候直接稱呼爲相關分析),在實際研究中使用最多。其實Pearson相關分析也有着默認的前提條件,即數據滿足正態分佈性。但現實中的數據很難滿足正態分佈性,此時建議使用Spearman(斯皮爾曼)相關係數進行研究即可。

  • 方差分析

方差分析(這裏特指單因素方差分析),其默認有個前提條件是因變量需要符合正態分佈性,可能是由於即使非正態分佈,方差分析的結果也較爲穩健,因而很少有人先進行正態分佈性檢驗。

事實上方差分析的因變量也需要滿足正態分佈特質,如果沒有滿足,則可以使用非參數檢驗進行檢驗。具體非參數檢驗的類型來看,如果X的組別爲兩組,比如上表中男和女共兩組,則應該使用MannWhitney統計量,如果組別超過兩組,則應該使用Kruskal-Wallis統計量結果。SPSSAU自動選擇MannWhitney或者Kruskal-Wallis統計量。

 

  •  獨立T檢驗

獨立T檢驗(也稱T檢驗),其默認有個前提條件是因變量需要符合正態分佈性,如果不滿足,此時可考慮使用非參數檢驗,具體來講應該是MannWhitney檢驗進行研究。

 

  •  單樣本T檢驗

單樣本T檢驗,其默認前提條件是數據需要符合正態分佈性,如果不滿足,此時可考慮使用非參數檢驗,具體來講應該是單樣本Wilcoxon檢驗進行研究。

 

  •  配對樣本T檢驗

配對樣本T檢驗,其默認前提條件是差值數據需要符合正態分佈性,如果不滿足,此時可考慮使用非參數檢驗,具體來講應該是單樣本Wilcoxon檢驗進行研究。其實配對樣本T檢驗與單樣本T檢驗的原理是一模一樣,無非是進行了一次數據相減(即差值)處理而已,因而其和單樣本T檢驗保持一致。

 

第二:理論與現實的“相悖”

從理論上講,很多研究方法需要滿足正態分佈特質,但現實情況下,很難滿足正態分佈性。SPSSAU認爲有兩點原因。1是抽樣樣本過少,很難cover所有情況,所以導致總體是正態分佈,但抽樣樣本不滿足正態分佈,比如中國13億人的身高肯定是正態分佈,但抽樣100個人可能就不會正態分佈;2是認知的不一致,事實上正態性是一種數學理論上的分佈,實際情況下只要數據分佈基本滿足“鐘形曲線”特徵,SPSSAU認爲也應該將數據看成是正態分佈。

因而在實際研究過程中,很可能會出現需要滿足正態性要求,但是並不滿足,此時應該如何處理呢?SPSSAU認爲有三種處理方式,如下圖:

第一種:使用正態分佈圖直觀判斷正態分佈特質,而不是使用檢驗方法。原因在於檢驗方法比較嚴苛,而現實數據滿足“鐘形曲線”特徵即可;

第二種:將數據取對數,或者開根號等處理。如果數據值非常大,取對數或者開根號等,會對數據進行“壓縮”處理,相對意義上單位會減小,但值的相對意義還是一樣,通常情況下,數據會變得相對“正態”一些;此步可使用SPSSAU的“生成變量”功能即可完成。

第三種:使用其它研究方法。如果是使用方差分析,T檢驗等,如果不滿足正態性,則有對應的非參數檢驗方法可以使用。如果是非參數檢驗方法進行差異對比,則應該使用中位數去表述大小差異等,而一般不使用平均值(滿足正態分佈性時才使用平均值表示整體水平)。當然,SPSSAU均會提供對應的非參數檢驗方法等,可直接使用。

 

第三:正態分佈的“檢驗方法”

上述已經講了很多關於正態分佈的話題,那如何對正態分佈性進行檢驗呢?SPSSAU共提供以下幾種檢驗,如下:

第一種:圖示法(使用SPSSAU的正態圖即可,可得到類似如下的圖等)

 

第二種:檢驗方法

SPSSAU共提供兩種正態性檢驗方法,包括S-W檢驗和K-S檢驗。小樣本(小於50)時建議使用S-W檢驗,大樣本(大於50)時建議使用K-S檢驗;此兩個檢驗的原假設爲數據正態分佈,因而P值>0.05,說明該項具有正態分佈特質;這些均會在SPSSAU的智能分析中默認提供。

 

下次再分析時,記得以上的方法來分析處理非正態的問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章