數據的正態性檢驗彙總

一、圖示法

1P-P

以樣本的累計頻率作爲橫座標,以安裝正態分佈計算的相應累計概率作爲縱座標,把樣本值表現爲直角座標系中的散點。如果資料服從整體分佈,則樣本點應圍繞第一象限的對角線分佈。

2Q-Q

以樣本的分位數作爲橫座標,以按照正態分佈計算的相應分位點作爲縱座標,把樣本表現爲指教座標系的散點。如果資料服從正態分佈,則樣本點應該呈一條圍繞第一象限對角線的直線。

以上兩種方法以Q-Q圖爲佳,效率較高。

3、直方圖

判斷方法:是否以鐘形分佈,同時可以選擇輸出正態性曲線。

4、箱式圖

判斷方法:觀測離羣值和中位數。

5、莖葉圖

類似與直方圖,但實質不同。

二、計算法

1、偏度係數(Skewness)和峯度係數(Kurtosis

計算公式:

g1表示偏度,g2表示峯度,通過計算g1g2及其標準誤σg1σg2然後作U檢驗。兩種檢驗同時得出U<U0.05=1.96,即p>0.05的結論時,纔可以認爲該組資料服從正態分佈。由公式可見,部分文獻中所說的"偏度和峯度都接近0……可以認爲……近似服從正態分佈"並不嚴謹。

2、非參數檢驗方法

非參數檢驗方法包括Kolmogorov-Smirnov檢驗(D檢驗)和Shapiro- Wilk W 檢驗)。

SAS中規定:當樣本含量n 2000結果以Shapiro – WilkW 檢驗爲準當樣本含量n >2000 結果以Kolmogorov – SmirnovD 檢驗爲準。

SPSS中則這樣規定:(1)如果指定的是非整數權重,則在加權樣本大小位於350之間時,計算 Shapiro-Wilk 統計量。對於無權重或整數權重,在加權樣本大小位於3 5000 之間時,計算該統計量。由此可見,部分SPSS教材裏面關於"Shapiro – Wilk適用於樣本量3-50之間的數據"的說法實在是理解片面,誤人子弟。(2)單樣本 Kolmogorov-Smirnov 檢驗可用於檢驗變量(例如income)是否爲正態分佈。

對於此兩種檢驗,如果P值大於0.05,表明資料服從正態分佈。

三、SPSS操作示例

SPSS中有很多操作可以進行正態檢驗,在此只介紹最主要和最全面最方便的操作:

1、工具欄--分析描述性統計探索性

2、選擇要分析的變量,選入因變量框內,然後點選圖表,設置輸出莖葉圖和直方圖,選擇輸出正態性檢驗圖表,注意顯示(Display)要選擇雙項(Both)。

3Output結果

1Descriptives描述中有峯度係數和偏度係數,根據上述判斷標準,數據不符合正態分佈。

Sk=0Ku=0時,分佈呈正態,Sk>0時,分佈呈正偏態,Sk<0時,分佈呈負偏態,時,Ku>0曲線比較陡峭,Ku<0時曲線比較平坦。由此可判斷本數據分佈爲正偏態(朝左偏),較陡峭。

2Tests of NormalityD檢驗和W 檢驗均顯示數據不服從正態分佈,當然在此,數據樣本量爲1000,應以W檢驗爲準。

3直方圖

直方圖驗證了上述檢驗結果。

4此外還有莖葉圖、P-P圖、Q-Q圖、箱式圖等輸出結果,不再贅述。結果同樣驗證數據不符合正態分佈。

   

許多計量資料的分析方法要求數據分佈是正態或近似正態,因此對原始獨立測定數據進行正態性檢驗是十分必要的。

通過繪製數據的頻數分佈直方圖來定性地判斷數據分佈正態性。這樣的圖形判斷決不是嚴格的正態性檢驗,它所提供的信息只是對正態性檢驗的重要補充。

正態性檢驗主要有三類方法:

一、計算綜合統計量

動差法夏皮羅-威爾克Shapiro-Wilk (W 檢驗) 達戈斯提諾D′Agostino (D 檢驗) Shapiro-Francia (W′檢驗) .

二、正態分佈的擬合優度檢驗

皮爾遜χ2 檢驗 對數似然比檢驗 柯爾莫哥洛夫Kolmogorov-Smirov 法檢驗 .

三、圖示法(正態概率圖Normal Probability plot)

分位數圖(Quantile Quantileplot ,簡稱QQ ) 百分位數(Percent Percent plot ,簡稱PP ) 穩定化概率圖(Stablized Probability plot ,簡稱SP ) .

下面介紹幾種較統計軟件中常用的正態性檢驗方法

1、用偏態係數和峯態係數檢驗數據正態性

偏態係數Sk,它用於檢驗不對稱性;峯態係數Ku,它用於檢驗峯態。 S k= 0, K u= 0 , 分佈呈正態, S k> 0 , 分佈呈正偏態,S k < 0 , 分佈呈負偏態。適用條件:樣本含量應大於200

2、用夏皮羅-威爾克(Shapiro-Wilk)法檢驗數據正態性

W檢驗,1965 年提出,適用於樣本含量n ≤50 時的正態性檢驗;

3、用達戈斯提諾(D′Agostino)法檢驗數據正態性

D檢驗,1971提出,正態性D檢驗該方法效率高,是比較精確的正態檢驗法。

4Shapiro-Francia

W′檢驗,1972 年提出,適用於50 < n < 100 時的正態性檢驗。

5QQ圖或PP

散點聚集在固定直線的周圍,可以認爲數據資料近似服從正態分佈

SPSS&SAS規則:
SPSS
規定:當樣本含量3 ≤n ≤5000 ,結果以Shapiro - Wilk (W 檢驗) 爲難,當樣本含量n > 5000 結果以Kolmogorov - Smirnov 爲準。

SAS 規定:當樣本含量n ≤2000 ,結果以Shapiro - Wilk (W 檢驗) 爲準,當樣本含量n >2000 ,結果以Kolmogorov - Smirnov (D 檢驗) 爲準

 

問:對照組和病例組都是20例,擬對某指標進行正態性檢驗,是用Kolmogorov-Smirnov檢驗(簡稱K-S檢驗),還是Shapiro-Wilk檢驗?已用K-S檢驗不能認爲該指標不是正態分佈,但是Shapiro-Wilk檢驗表明其爲非正態分佈,我該相信哪個檢驗結果?答:Kolmogorov-Smirnov檢驗:檢驗頻數分佈的正態性檢驗,適合大樣本。Shapiro-Wilk檢驗:小樣本數據的正態性檢驗。矩法正態性檢驗: 不限樣本。問:SPSSanalysze/discriptive statistics/explore法和用analyze/nonparametric tests/1-sample K-S法評價正態性,結果不完全相同,爲什麼?答:以第二個爲準,第一種方法是參數檢驗,而第二種是非參數檢驗,第一種是在知道總體分佈的情況下做的,第二種是在不知道總體分佈的情況進行的檢驗,而且大多數的檢驗,我們都是不知道總體分佈到底是什麼才做的K-S檢驗。 

因此在做分析的時候一般用第二種,標準的檢驗單樣本分佈的方法。不過一般推薦用上面的,並且和SAS的結果比較吻合。同時樣本量小的時候選S-W的結果,至於結果的不同,應該是不同的方法算出的值不同,這很正常,因爲這幾個方法的數學表達式就不一樣,中間對數據的處理也不一樣,會有信息損失等原因的,在正態檢驗中,尤其是接近α水準時,往往容易出現問題,所以要根據資料的性質判斷用什麼方法進行檢驗更合適。不是把所有的方法都做一遍。對於到底P取多少纔有意義,說法有好多種,常用的是0.1 吧,SPSS自帶的是0.2的界值。其實還是得結合QQPP圖之類的來觀察會好些。小樣本最好不要看Kolmogorov-Smirnov的結果,常常會有問題,Shapiro-Wilk 的結果會好些。補充:如果根據國標,其偏態和峯態算法,其值爲多少時符合正態別有規定呢?K-S檢驗記得在資料上見過8<=n<=50時可以利用,小樣本就不推薦,W檢驗在國標中不推薦,具體原因未知,不過,推薦了EPPS-PULLEY法(在SPSSSAS軟件中未見有這種檢驗,但有針對的軟件對該法有獨立開發)。問:那爲什麼用analysze/discriptive statistics/explore法的結果中,nonparametric tests 圖下有一句話: test distribution is normal。這句話和P值不就矛盾了嗎? 答:這個是對前面給出均數標準差時候的一個假定,因爲如果不服從正態,給出這兩個參數是沒有實用價值的,或者說是錯誤的,所以它給了一個假定。你看ab標註在什麼地方?

問:大樣本的非正態資料可看作近似正態分佈的資料,那麼其描述能不能用均數加減標準差來表示呢?一定要用中位數和四分位數間距來表示嗎? 答:"大樣本的非正態資料可看作近似正態分佈的資料"這是基於中心極限定理,大樣本均數服從正態分佈,可用U檢驗進行兩組均數的比較。並非大樣本的非正態資料可看作近似正態分佈的資料。大樣本資料的描述可以用均數加減標準差。 數據的描述正態 X±S 非正態 M(QR) M代表中位數,QR=Q3-Q1,代表四分位數間距)非正態資料也有用 M(P25,P75)來進行描述的,能夠更直觀的看到數據的分佈形狀

疑問:這兒有個值得考慮的問題,多大屬於大樣本?如果樣本是我們常說的"大樣本"那麼只能說明樣本參數是符合正態分佈。就樣本資料來說,如果這個樣本的資料偏態嚴重,那麼就不適合採用均數加減標準差來對這個樣本資料進行描述。

問:SPSS中只有關於t檢驗的程序,請問U檢驗的程序在哪裏呢? 答:U檢驗SAS程序(只有樣本量、均數、標準差的情況)data utest;n1=116; x1=0.2189; s1=0.2351;n2=125; x2=0.2280; s2=0.2561;u=(x1-x2)/sqrt(s1**2/n1+s2**2/n2);p=(1-probnorm(abs(u))*2;proc print;var u p;run;SAS的正態性檢驗PROC UNIVARIATE DATA=data1 NORMALVAR x;RUN; 

注:以上問題即回答來自各大論壇,本工作室對其進行整理,和修正,以方便讀者。如有不妥支出,請及時幫我們斧正,謝謝!如有與"GBT4882-2001數據的統計處理和解釋-正態性檢驗"衝突的,請參照國標。下載地址http://www.tj911.cn/netdisk/GetFile.asp  提取碼:09042123310309MMH

兩種正態性檢驗方法差異比較

SPSS 2010-06-26 13:20:34 閱讀56 評論0 字號:大中小

SPSS裏面有兩處可以檢驗數據正態性,
一個是:
Analysis - Descriptive Statistics --Explore,這可能是常用的方法

 另一處是:Analysis -Nonparametric tests -- One sample K-S test

兩個地方雖然都用到了名稱相同的Kolmogorov-Smirnov Test,但是經常會出現檢驗的結果不一致的情況。

   

比如就用SPSS自帶的數據Anxiety 2.sav,分別對trial1-trial4的檢測值做正態性檢驗
EXPLORE得出的結果是:

 而用NPAR做出的結果是:

   

   

'探索'裏出現的Kolmogorov-Smirnov檢驗,它的右上角有一個a的註釋號。
下面的介紹表明它是經過Lilliefors改進或糾正的結果。
它將Kolmogorov-Smirnov檢驗改進用於一般的正態性檢驗。
 
而在'非參數檢驗'裏出現的Kolmogorov-Smirnov檢驗,是沒有經過糾正或改進的。
該正態性檢驗只能做標準正態檢驗。

   

SPSS規定:當樣本含量3≤n≤5000時,結果以Shapiro—Wilk(W 檢驗)爲難,當樣本含量n>5000結果以Kolmogorm —Smimov(D檢驗)爲準。
 
SAS
規定:當樣本含量n≤2000時,結果以Shapim—Wilk(W 檢驗)爲準,當樣本含量n>2000時,結果以Kolmogorov—Smimov(D檢驗)爲準。

 
SPSSSAS等統計分析軟件中,通常用統計描述模塊中的Shapiro-Wilk檢驗、經過Lilliefors顯著水平修正的Kolmogorov—Smirnov檢驗和非參數檢驗模塊中的單一樣本Kolmogorov—Smirnov檢驗進行正態性判定。但是這幾種檢驗方法存在以下幾方面的問題。
(1)
在實際應用中常出現檢驗結果與直方圖、正態性概率圖不一致,甚至幾種假設檢驗方法結果完全不同的情況。
(2)Shapiro—Wilk
檢驗( 檢驗)和經過Lilliefors顯著水平修正的Kolmogorov—Smirnov檢驗(D檢驗)是用一個綜合指標(順序統計量Ⅳ D)來判定資料的正態性由於兩種方法都是用一個指標反映資料的正態性,所以當資料的正態峯和對稱性兩個特徵有一個不滿足正態性要求時,兩種方法出現假陰性錯誤的機率均較大;而且兩種方法的檢驗統計量都是進行大小排序後得到,所以易受異常值的影響。
(3)Kolmogorov—Smirnov
單一樣本檢驗是根據實際的累計頻數分佈和理論的累計頻數分佈的最大差異來檢驗資料的正態性,可對正態分佈進行擬合優度檢驗。但它並非檢驗正態性的專用方法,因此它的檢驗效率是最低的,最容易受樣本量和異常值等因素的影響。
 
沒有修正的K-S檢驗的原始公式裏面,檢驗的既是標化後的數據是否服從理論的分佈。

正態性檢驗(上)

2008-04-25 10:45

1. 樣本量較大時的結果:

運用的數據是SPSS13.0Data裏面的diameter_sub.sav,樣本含量是216

對數據分別支用SAS和SPSS進行正態性檢驗:

1.1 SAS中用Proc univariate normal;命令

結果如下:

Tests for Normality

Test --Statistic--- -----p Value------

Shapiro-Wilk W 0.993604 Pr < W 0.4813

Kolmogorov-Smirnov D 0.057717 Pr > D 0.0789

其中SAS中SAS 規定:當樣本含量n 2000 ,結果以Shapiro - Wilk (W 檢驗) 爲準,當樣本含量n >2000 ,結果以Kolmogorov - Smirnov (D 檢驗) 爲準。

1.2 SPSS裏面用Explor過程Plots選項中Normality Plots with tests

結果如下:

    Tests of Normality

Kolmogorov-Smirnov(a)

Shapiro-Wilk

Statistic

df

Sig.

Statistic

df

Sig.

AP diameter(mm)

.058

216

.070

.994

216

.476

a Lilliefors Significance Correction

對於SPSS結果選用哪個方法,我看的資料並不一致:在SPSS13.0書上以樣本量≤50,選Shapiro - Wilk 檢驗,(而有文獻SPSS說樣本含量3 n 5000 ,結果以Shapiro - Wilk (W 檢驗) 爲準,有出入)

1.3 在SPSS13.0中單樣本的K-S擬合優度檢驗講到:可以用來檢驗樣本的分佈是否服從某種理論分佈――可以是正態、均勻等。用上述例子選Normal分佈進行計算

結果如下:

    One-Sample Kolmogorov-Smirnov Test

 

AP diameter(mm)

N

216

Normal Parameters(a,b)

Mean

14.4421

Std. Deviation

.71728

Most Extreme Differences

Absolute

.058

Positive

.032

Negative

-.058

Kolmogorov-Smirnov Z

.859

Asymp. Sig. (2-tailed)

.451

a Test distribution is Normal.

b Calculated from data.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章