SPSS——描述性統計分析——探索性分析

菜單

除了可以計算基本的統計量之外,也可以給出一些簡單的檢驗結果和圖形,有助於用戶進一步的分析數據。使得用戶能夠從大量的分析結果之中挖掘到所需要的統計信息。

適用範圍
對資料的性質、分佈特點等完全不清楚的時候

Analyze -> Descriptive Statistics -> Expore

數據源

ceramics.sav

這裏寫圖片描述

這裏寫圖片描述

  • 因變量列表
    用於選入待分析的變量
  • 因子列表
    用於選擇分組變量,根據該變量取值不同,分組分析因變量列表中的變量
  • 標註個案
    選擇標籤變量

統計量

這裏寫圖片描述

  • 描述性
    計算一般的描述性統計量,及指定的均數可信區間
  • M-估計量
    描述集中趨勢的統計量,用於穩健估計
  • 界外值
    分別輸出5個極大值和極小值
  • 百分位數
    輸出變量5%,10%,25%,50%,75%,90%,95%分位數

繪製

這裏寫圖片描述

  • 帶校驗的正態圖
    選擇是否進行正態校驗,且是否輸出相應的Q-Q圖
  • 伸展與級別Levene檢驗
    當選入分組變量時,該功能才被激活,主要用於比較各組之間的離散程度是否一致。在這裏可以選擇“未轉換”,用於方差齊性檢驗

選項

這裏寫圖片描述

輸出結果

個案處理分析結果

包括觀測量、缺失值等信息

這裏寫圖片描述

描述性統計量

包括:均值、95%置信區間、方差、中位數、標準差、最大最小值、偏度和峯度等信息

這裏寫圖片描述

集中趨勢分佈的3種較佳平穩測度

  • 較佳測度之一:中位數等

    • 中位數
      與均值和衆數大不相同,中位數是依賴於數據的主體部分而不是極值,因此它的值不是過分地受某幾個觀察值的影響
    • 平穩估計量
      如果對數據來源的總體做出某個假設(比如假定服從正態分佈),則會有更佳分佈位置的估計量,這種估計量稱爲平穩或穩健測度的估計量
  • 較佳測度之二:修正均值
    由於均值深受極端值影響,因此可通過去掉一些遠離主體數據的極端值,進而獲得一個對於分佈位置簡單而平穩的估計量

    • 5%修正均值
      是通過去掉所有觀察值中最大的5%和最小的5%的數據而獲得
      調整後的均值與中位數可更好的利用數據
  • 較佳測度之三:M估計
    將極端值計算在內,而賦予比靠近中央值較小的一個權重,這種方法可藉助M估計或採用廣義最大似然估計
    M-estimators:平穩分佈位置的最大似然估計量

    • Huber的M估計值
    • Tukey雙權重估計值
    • Hampel重複遞減M估計值
    • Andrew波形估計值

M-估計器

這裏寫圖片描述

極值

這裏寫圖片描述

這裏用標註個案來標記極值

正態性檢驗

這裏寫圖片描述

  • 其中Premium變量對應的K-S檢驗P值和Shapiro-Wilk檢驗P值均爲0.000,非常顯著,應該拒絕原假設。所以,此變量的數據分佈不是正態分佈。
  • 而Standard數據的分佈不是顯著的,可以認爲是正態分佈

在‘探索’裏出現的Kolmogorov-Smirnov 檢驗,它的右上角有一個a 的註釋號。它將Kolmogorov-Smirnov 檢驗改進用於一般的正態性檢驗。

而在‘非參數檢驗’裏出現的Kolmogorov-Smirnov 檢驗,是沒有經過糾正或改進的。

該正態性檢驗只能做標準正態檢驗。

 SPSS 規定:當樣本含量3≤n≤5000 時,結果以Shapiro—Wilk(W 檢驗)爲難,當樣本含量n>5000 結果 以Kolmogorm —Smimov(D檢驗)爲準。

問題:

(1) 在實際應用中常出現檢驗結果與直方圖、正態性概率圖不一致,甚至幾種假設檢驗方法結果完全不同的情況。

(2) Shapiro—Wilk 檢驗(Ⅳ 檢驗)和經過Lilliefors 顯著水平修正的Kolmogorov—Smirnov 檢驗(D 檢驗)是用 一個綜合指標(順序統計量Ⅳ 或D)來判定資料的正態性由於兩種方法都是用一個指標反映資料的正態性,

所以當資料的正態峯和對稱性兩個特徵有一個不滿足正態性要求時,兩種方法出現假陰性錯誤的機率均較 大;而且兩種方法的檢驗統計量都是進行大小排序後得到,所以易受異常值的影響。

(3) Kolmogorov—Smirnov 單一樣本檢驗是根據實際的累計頻數分佈和理論的累計頻數分佈的最大差異來檢驗資料的正態性,可對正態分佈進行擬合優度檢驗。但它並非檢驗正態性的專用方法,因此它的檢驗效率是最低的,最容易受樣本量和異常值等因素的影響。

方差齊性檢驗

這裏寫圖片描述

假設檢驗:
H0: 兩樣本方差齊性(相等,或無顯著性差異)

如上圖,Sig > 0.2,並無顯著差異。

正態Q-Q圖

正態性檢驗可以通過直觀的Q-Q圖,進行人工驗證。

這裏寫圖片描述

這裏寫圖片描述

Q-Q圖是一種散點圖,對應於正態分佈的Q-Q圖,就是由標準正態分佈的分位數爲橫座標,樣本值爲縱座標的散點圖. 要利用QQ圖鑑別樣本數據是否近似於正態分佈,只需看QQ圖上的點是否近似地在一條直線附近,而且該直線的斜率爲標準差,截距爲均值.

如上圖,batch=Standard Q-Q圖上的點在一條直線附近,可以認爲是正態分佈,和正態性檢驗Lilliefors,Shapiro-Wilk得出的結果一致。

反趨勢正態 Q-Q 圖

這裏寫圖片描述

這裏寫圖片描述

如上圖,反趨勢正態概率Q-Q圖以變量的觀測值爲X座標,以變量的Z得分與期望值的偏差爲Y座標。
batch=Standard 圖的觀測點離期望值很集中,說明符合正態分佈。

盒子圖

這裏寫圖片描述

Premiun中有部分異常數據,數據偏大。需要進行異常值檢測。

發佈了110 篇原創文章 · 獲贊 91 · 訪問量 86萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章