SPSS如何做離散和連續變量的統計描述
離散變量的統計描述
- 原始數據
§頻數列表
§百分比
§累計頻數
§累計百分比
- 集中趨勢
§衆數
連續變量的統計描述
頻數表
操作步驟:確定組數;確定組距;確定各組段的上下限
各步驟的操作都存在着一些主觀性,但因爲只是進行初步的觀察,這並無大礙
是一種非常直觀的方法,但比較粗糙,如果希望進行深入的分析,則必須要使用一些嚴謹的統計指標對各方面特徵加以描述
-
集中趨勢
均數mean
§描述一組數據在數量上的平均水平,總體均數和樣本均數用不同符號表示
§適用範圍:對稱分佈,特別是正態分佈資料
幾何均數G
§針對正偏態資料集中趨勢的描述而提出
§適用範圍:對數正態分佈資料,但往往被進一步擴大到等比資料
中位數median
§適用範圍:萬金油
§和均數相比較爲遲鈍,只有樣本量較爲充足時結果才穩定下來
衆數mode
§所有數值中出現次數最多的一個
§適用範圍:國外用的比較多
-
離散趨勢
全距Range
§適用範圍最廣,但是也最不穩定
方差Variance
§離均差 描述個體變異
§離均差和 直接相加必然爲0
§離均差絕對值之和 數學推導困難
§離均差平方和
標準差 std.deviation
§解決了閱讀時量綱的問題
變異係數(coefficient of variation)
§解決了不同資料間變異程度對比的問題
§測量尺度相差太大:比較螞蟻和大象的體重變異
§量綱不同:比較身高和體重的變異程度
百分位數
教科書上傳統將其列爲集中趨勢的描述指標,但實際上不僅限於此,單獨列爲一類可能更爲妥當
§適用於各種分佈
§P2.5 P5 P10 P25 P50 P75 P90 P95 P97.5
使用條件:只有樣本量較大時結果才比較穩定,對位於兩端的百分位數而言更是如此
§100例時,P95右側只有5例!
四分位數
§實際上是P25、P50和P75分位數的總稱,他們正好能夠將全部總體單位按標誌值的大小等分爲四部分的三個數值
§上(P75)、下(P25)四分位數的差值被稱爲四分位間距
-
分佈形狀(是否對稱,分佈曲線的形狀)
§針對某種分佈進行進一步的特徵描述,主要是用於正態分佈
§偏度係數Skewness 正態峯 正偏態 負偏態
§峯度係數Kurtosis 正態峯 平闊峯 尖峭峯
其他分佈會有其他指標
-
分佈特徵(單、雙峯,有無極端值等)
連續變量統計描述總結
- 正分佈分佈:
集中趨勢:均數
離散趨勢:標準差
- 非正態分佈:
集中趨勢:中位數
離散趨勢:四分位數間距