數學建模——計算機工具的使用(1)——SPSS操作以及在統計分析中的應用

本文指南

  • 本文講解SPSS操作以及基礎數據分析概念。
  • 文章立志於打造字典級SPSS操作指南,因此建議讀者根據目錄適當食用。
  • 本應用將持續更新到2020年2月14日美賽,主要更新內容集中在分析(高級)內容,主要採取的形式是鏈接到我的其他博客中。
  • 文章所使用的資料來源集中於《數學建模》書籍,以確保內容的準確性,並採用圖示操作形象化文字描述。當然本文內容還有大量的其他資料來源以及淺薄的個人經驗整理。
  • 如果你在閱讀時發現了錯誤,請在下方評論區進行評論,萬分感謝。
  • 如果你覺得內容尚可,感謝點贊。
  • 最後,祝願諸位與我共同進步,學有所成。

一、SPSS簡介

  1. 在國際學術界有條不成文的規定,即在國際學術交流中,凡是用SPSS軟件完成的計算和統計分析,可以不必說明算法。
  2. SPSS 的基本功能包括數據管理統計分析圖表分析輸出管理等等。
    1. SPSS 統計分析過程包括描述性統計均值比較一般線性模型相關分析迴歸分析對數線性模型聚類分析數據簡化生存分析時間序列分析多重響應等幾大類,每類中又分好幾個統計過程,比如迴歸分析中又分線性迴歸分析曲線估計Logistic 迴歸Probit 迴歸加權估計二階段最小二乘法非線性迴歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數
    2. SPSS 也有專門的繪圖系統,可以根據數據繪製各種圖形

二、SPSS操作

1. 基本步驟

以統計分析爲引:

  1. 錄入數據或者打開一個已經存在的數據文件,根據需要進行數據轉換;
  2. 選擇合適的統計分析過程,選擇統計分析所採用的方法和參數;
  3. 分析SPSS 輸出的結果,並保存結果。

2. 數據管理(Data Management)

1. 主界面

  1. 啓動SPSS 後,出現的界面是數據編輯器窗口,它的底部有兩個標籤:Data View(數據視圖)和Variable View(變量視圖),它們提供了一種類似於電子表格的方法,用以產生和編輯SPSS 數據文件。
    1. Data View(數據視圖)用於查看、錄入和修改數據;
    2. Variable View(變量視圖)定義和修改變量的定義。
      在這裏插入圖片描述
  2. 與Excel的一些區別
    1. 列是變量,即每一列代表一個變量(Variable)或一個被觀測量的特徵。
    2. 行是觀測,即每一行代表一個個體、一個觀測、一個樣品,在SPSS 中稱爲事件(Case)。
    3. 單元包含值,即每個單元包括一個觀測中的單個變量值。單元(Cell)是觀測和變量的交叉。與電子表格不同,單元只包括數據值而不能含公式。
    4. 數據文件是一張長方形的二維表。數據文件的範圍是由觀測和變量的數目決定的。可以在任一單元中輸入數據。如果在定義好的數據文件邊界以外鍵入數據,SPSS 將數據長方形延長到包括那個單元和文件邊界之間的任何行和列。
  3. 如果要分析的數據還沒有錄入,可用數據編輯器來鍵入數據並保存爲一個SPSS數據文件(其默認擴展名爲sav)。
    在這裏插入圖片描述

2. 變量視圖

1. 定義變量

  1. 輸入數據前首先要定義變量。定義變量即要定義變量名、變量類型、變量長度(小數位數)、變量標籤(或值標籤)和變量的格式。
    在這裏插入圖片描述

  2. 操作步驟

    1. 單擊數據編輯窗口中的Variable View標籤或雙擊列的題頭(Var),顯示變量定義視圖。
      在這裏插入圖片描述
    2. 在出現的變量視圖中定義變量。
      在這裏插入圖片描述
  3. 變量定義信息的解釋

    1. Name:定義變量名。變量名必須以字母或字符@開頭,其它字符可以是任何字母、數字或_、@、#、$等符號。變量名總長度不能超過8 個字符(即4個漢字)。
    2. Type:定義變量類型。SPSS 的主要變量類型有:Numeric(標準數值型)、Comma(帶逗號的數值型)、Dot(圓點作小數點的數值型)、Scientific Notation(科學記數法)、Date(日期型)、Dollar(帶美元符號的數值型)、Custom Currency(自定義型)、String(字符型)。單擊Type相應單元中的按鈕,選擇合適的變量類型並單擊OK。
      在這裏插入圖片描述
      在這裏插入圖片描述
    3. Width:變量長度。設置數值變量的長度,當變量爲日期型時無效。
    4. Decimal:變量小數點位數。設置數值變量的小數點位數,當變量爲日期型時無效。
    5. Label:變量標籤。變量標籤是對變量名的進一步描述,變量只能由不超過8 個字符組成,8 個字符經常不足以表示變量的含義。而變量標籤可長達120 個字符,變量標籤對大小寫敏感,顯示時與輸入值完全一樣,需要時可用變量標籤對變量名的含義加以解釋。
    6. Value:變量值標籤。值標籤是對變量的每一個可能取值的進一步描述。
    7. Missing:缺失值的定義方式
      SPSS 有兩類缺失值:系統缺失值用戶缺失值
      • 在數據長方形中任何空的數字單元都被認爲系統缺失值,用點號( • )表示。
      • SPSS 可以指定那些由於特殊原因造成的信息缺失值,然後將它們標爲用戶缺失值,統計過程識別這種標識,帶有缺失值的觀測被特殊處理。默認值爲None。
      • 單擊Value 相應單元中的按鈕,可改變缺失值定義方式。
        在這裏插入圖片描述
        在這裏插入圖片描述
    8. Column:變量的顯示寬度。輸入變量的顯示寬度,默認爲8。
    9. Align:變量顯示的對齊方式。 選擇變量值顯示時的對齊方式:Left(左對齊)、Right(右對齊)、Center(居中對齊)。
    10. Scale:變量的測量尺度。根據變量測量精度不同,可把變量由低到高分爲四種尺度:定類變量、定序變量、定距變量和定比變量。
      1. 定類變量。定類變量由稱爲名義(nominal)變量。這是一種測量精度最低、最粗略的基於“質”因素的變量,它的取值只代表觀測對象的不同類別例如“性別”變量、“職業”變量等都是定類變量定類變量的取值稱爲定類數據或名義數據。定類數據的共同特點是用不多的名稱來加以表達,並由被研究變量每一組出現的次數及其總計數所組成,這種數據是枚舉性的,即由計數一一而得。唯一適合於定類數據的數學關係是“等價關係”。因而,在定類數據中,同一組內各單位是等價的,同時若更換各不同組的符號並不會改變數據原有的基本信息。因此,最常用來綜合定類數據的統計量是頻數、比率或百分比等
        在這裏插入圖片描述
      2. 定序變量。定序變量由稱爲有序(ordinal)變量、順序變量,它的取值大小能夠表示觀測對象的某種順序關係(等級、方位或大小等),也是基於“質”因素的變量。例如:“最高學歷”變量的取值是:1-小學及以下、2-初中、3-高中、中專、技校、4-大學專科、5-大學本科、6-研究生以上。由小到大的取值能夠代表學歷由低到高。定序變量的取值稱爲定序數據或有序數據。適合於定序數據的數學關係是“大於(>)”和“小於(<)”關係。在定序數據中,同一組內各單位是等價的,相鄰組之間的單位是不等價的,它們存在“大於”或“小於”的關係。而且進行保序變換(或稱單調變換),不改變數據原有的基本信息即等級順序。最適合用於綜合定序數據取值的集中趨勢的統計量是中位數
        在這裏插入圖片描述
      3. 定距變量。定距變量又稱爲間隔(interval)變量它的取值之間可以比較大小,可以用加減法計算出差異的大小。例如,“年齡”變量,其取值60與20相比,表示60歲比20歲大,並且可以計算出大40 歲(60-20)。定距變量的取值稱爲定距數據或間隔數據。定距數據是一些真實的數值,具有公共的、不變的測定單位,可以進行加減乘除運算。定距數據的基本特點是兩個相同間隔的數值的差異相等。對於定距數據,不僅可以規定“等價關係”以及“大於關係”和“小於關係”,而且也可以規定任意兩個相同間隔的比值或差值。如果將每個數值分別乘以一個正的常數再加上一個常數,即進行正線性變換,並不影響定距數據原有的基本信息。因此,常用的統計量如均值、標準差、相關係數等都可直接用於定距數據
      4. 定比變量。定比變量又稱爲比率(ratio)變量它與定距變量意義相近,細微差別在於定距變量中的“0”值只表示某一取值,不表示“沒有”。例如,人的身高就是一個定比變量,如果身高值爲“0”米,則表示這個人不存在。定比變量的“0”值表示“沒有”。而在測定溫度的攝氏表中,0oC 並不表示沒有溫度,因爲還有在零度以下的溫度。定比變量的取值稱爲定比數據或比率數據。定比數據也同樣可進行算術運算和線性變換等。通常對定距變量和定比變量不需要加以區別,兩者統稱爲定距變量或間隔變量
      5. 一般地,定類變量(名義變量)和定序變量(有序標量)用於描述定性數據,屬於定性變量;而定距變量和定比變量用於描述定量數據,屬於定量變量。

2.數據的輸入與編輯

health.xlsx

  1. 在數據視圖中可進行正常的基本操作;
  2. 右鍵可多選;
  3. Ctrl + F 可進行關鍵字搜索;
  4. 查找特定觀測(行);數據 ==》定義變量屬性
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

3. 數據轉換

在理想情況下,輸入的原始數據完全適合要執行的統計分析模型,遺憾的是,這種情況很罕見,經常需要通過數據轉換來提示變量之間的真實關係。利用SPSS 可進行從簡單到複雜的數據轉換。

1.根據已存在的變量建立新變量

轉換(Transform)==》計算變量(Compute Variable)
在這裏插入圖片描述
在這裏插入圖片描述
操作指引:

  1. 在對話框中的Target Variable(目標變量)下框中輸入符合變量命名規則的變量名,目標變量可以是現存變量或新變量。

  2. 對話框中Numeric Expression(數值表達式下的文本
    用於輸入計算目標變量值的表達式。表達式能夠使用左下框列出的現存變量名、計算器板列出的算術運算符和常數和Functions(函數)列表框顯示的各種函數等。可以在文本框中直接輸入和編輯表達式,也可以使用變量列表、計算器板和函數列表將元素粘貼到文本框中。

  3. 計算器板下面有一個IF按鈕,單擊該按鈕打開條件表達式對話框。在條件表達式對話框中指定一個邏輯表達式,一個邏輯表達式對每一個觀測(case)返回真、假或缺失值。如果一個邏輯表達式的結果是真,就把轉換應用於那個觀測;如果結果是假或缺失值,就不對那個觀測應用轉換。

    示例操作圖示(不包括IF操作):
    在這裏插入圖片描述
    點擊確定
    在這裏插入圖片描述

2. 對觀測(case)記錄進行排序
  1. 作用:在數據文件中,可根據一個或多個排序變量的值重排觀測的順序。
  2. 操作指引:數據 ==》個案排序。
  3. 示例操作圖示
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
3. 觀測或變量轉置
  1. 作用:SPSS 中將行作爲觀測,列作爲變量。對那些觀測和變量的行列關係與此相反的數據文件,可以將行列互換。
  2. 操作指引:數據 ==》轉置
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
4. 文件合併
  1. 作用:可以將兩個或更多個數據文件合併在一起,即可將具有相同變量但觀測不同的文件合併,也可將觀測相同變量不同的文件相合並。
  2. 操作指引
    • 選擇Data=>Merge Files=>Add cases從第二個文件即外部SPSS數據文件相當前工作數據文件追加觀測。
    • 選擇Data=>MergeFiles=>Add Variables 合併含有相同觀測但不同變量的兩個SPSS 外部文件。

在這裏插入圖片描述

5. 選取觀測子集
  1. 作用:可以同時對不同的觀測子集做不同的統計分析。

  2. 操作指引: 可以選擇Data=>Select Cases 根據包含變量和複雜的表達式的準則把統計分析限於某一特定觀測子集,也可選取一個隨機觀測樣本。
    在這裏插入圖片描述
    在這裏插入圖片描述

  3. 示例圖示操作

    • 根據準則選擇個案樣本
      在這裏插入圖片描述
      在這裏插入圖片描述
    1. 隨機個案樣本
      在這裏插入圖片描述
      在這裏插入圖片描述
6. 其它轉換
  • 數據彙總,Data=>Aggregate
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 數據加權,Data=>Weight Cases
    在這裏插入圖片描述
  • 數值編碼,Transform=>Recode
    在這裏插入圖片描述
  • 數據求秩,Transform=>Rank Cases
    在這裏插入圖片描述
  • 產生時間序列,Tranform=>Create Time Series
    在這裏插入圖片描述

3. 統計分析(Statistical Analysis)

在SPSS 中建立了數據文件或打開一個數據文件之後,選擇正確的統計分析方法,是得到正確分析結果的關鍵步驟。統計分析過程在主菜單Analyze(分析)中的下拉菜單中。

  1. 典型相關分析

在這裏插入圖片描述
典型相關分析及其SPSS操作

  1. 待補充中

4. 圖形分析(Graphical Analysis)

1. 統計圖

  • 概念:統計圖是用點的位置、線段的升降、直條的長短或面積的大小等方法來表達統計數據的一種形式,它可以把資料所反映的變化趨勢、數量多少、分佈狀態和相互關係等形象直觀地表現出來,以便於讀者的閱讀、比較和分析。
  • 特點:統計圖具有簡明生動、形象具體和通俗易懂的特點。
  • 來源:SPSS 的圖形分析功能很強,許多高精度的統計圖形可從Analyze菜單的各種統計分析過程產生,也可以直接從Graph 菜單中所包含的各個選項完成

2. 圖形分析過程

  1. 建立或打開數據文件,若數據文件結果不符合分析需要,則必須轉換數據文件結果;
  2. 生成圖形;
  3. 修飾生成的圖形,保存結果。

3. 統計圖類型及形式

  1. 常用類型:條形圖、線圖、面積圖、圓餅圖、散點圖、直方圖、箱線圖等等。
  2. 兩種形式:一種爲一般圖形,另一種爲交互式圖形,交互式圖形提供了更多的選項,可繪製出更強大
    的圖形。

5. 輸出窗口(Output Management)

在這裏插入圖片描述
What‘s This?:雙擊該數據透視表,右擊術語,在彈出的快捷菜單中選擇What’s This,就可獲得該術語的簡單定義。
在這裏插入圖片描述
在這裏插入圖片描述

三、統計數據的收集、整理與描述

1. 統計數據的收集

1. 概念

統計數據的收集就是統計調查,它按研究的目的和要求,有組織地向調查對象收集相關的各種資料。爲了保證統計數據資料的完整性、準確性和及時性,必須熟悉各種收集方法及各自的特點。

2.收集方法

  1. 問卷調查
    問卷是調查者向被調查者瞭解情況或徵詢意見時所運用的同一設計的調查表。絕大多數旨在收集定量數據的調查都要採用某種形式的問卷,纔會使調查得以順利完成,並獲得令人滿意的數據。
  2. 普查法
    普查,是按照一定標準時間對普查對象的全部單位無一例外地逐個進行的調查。普查按門類劃分,可分爲人口普查、工業普查、商業普查、農業普查、第三產業普查等。普查按區域劃分,有宏觀、中觀和微觀之分。一般而言,我們經常提起的普查爲宏觀普查
  3. 抽樣調查
    普查的覆蓋面寬,但其耗費的人力、物力、財力太大,在統計調查中抽樣調查更爲常用。抽樣調查是從調查對象的總體中,按照一定的抽樣原則抽取一部分單位作爲樣本,並以對樣本進行調查的結果來推斷總體的方法
    根據抽樣方法是否隨機,可將抽樣調查分爲隨機抽樣非隨機抽樣兩大類。
  4. 典型調查
    典型調查是從調查對象的總體中選取一個或幾個有代表性的單位進行全面、深入的調查。調查單位可依不同調查目的選取企業、學校、個人、家庭等。
    典型調查的目的就是通過對某個典型的深入分析來概括和反映全面。因此,典型調查要求典型對總體推斷有一定的代表性,這也是典型調查的關鍵。典型的代表性可以從動態、靜態兩個方面來衡量。從動態上來講,是指事物的發展趨勢;從靜態上來講,是指事物的共同屬性與差異。
  5. 觀察法
    觀察法是觀察者深入現場或進入一定環境,觀察調查對象,獲取第一手資料的方法。調查人員直接到調查現場,耳聞目睹顧客對市場的反映和公開言行,或者利用照相機、監視器等現代化器械間接地進行觀察來收集資料等,都屬於觀察法。
    觀察法的特點就是從側面觀察被觀察者的言行和反映,一般不直接向被調查人提出問題,所以,被調查者往往是在不知情的狀況下被調查的。
  6. 實驗法
    實驗法是研究者根據一定的研究目的,控制某種市場條件,或在人工環境中使一定的現象產生,通過觀察、記錄收集資料,以揭示其發生原因或規律的方法,是一種複雜、高級調查方法。
  7. 集體訪談法
    集體訪談法是訪問調查法的延伸和擴展,是調查者邀請若干被調查者,通過集體訪談的方式瞭解有關情況或研究實用統計學有關問題的方法

2. 統計數據的整理

收集統計數據之後,要對獲取的數據進行系統化、條理化地整理,以提取有用的信息。

1. 整理方法

  1. 統計分組
    根據統計研究的目的和客觀現象的內在特點,按某個標誌(或幾個標誌)把被研究的總體劃分爲若干個不同性質的組,稱爲統計分組。統計分組的對象是總體。從分組的性質來看,分組具有分和雙重含義。
  2. 頻數分佈與頻率分佈
    1. 將數據按其分組標誌進行分組的過程,就是頻數分佈和頻率分佈形成的過程表示各組的次數稱爲頻數各組次數與總次數之比稱爲頻率。 頻數分佈就是觀察值按其分組標誌分配在各組內的次數,由分組標誌序列和各組相對應的分佈次數兩個要素構成。由分組標誌序列和各組相應的頻率構成頻率分佈。
    2. 在平面直角座標系上,將分組標誌作爲橫軸並將各組頻數(頻率)作爲縱軸,給出各組的長方形圖即直方圖。與直方圖相似作用的圖示是折線圖,它以各組標誌值中點位置作爲該組標誌的代表值,然後用折線將各組頻數連接起來
    3. 當所觀察的次數很多,組距很小並且組數很多時,所繪出的折線圖就會越來越光滑,逐漸形成一條光滑的曲線,這種曲線即頻數分佈曲線,反映了數據的分佈規律。統計曲線在統計學中很重要,是描繪各種分佈規律的有效方法。常見的頻數分佈曲線有正態分佈曲線、偏態分佈曲線、J 型分佈曲線和 U 型分佈曲線
  3. 累計頻數分佈與頻數分佈
    爲了統計分析的需要,有時爲了觀察某一數值以上或某一數值以下頻數或頻率之和這就需要在基本分組的基礎上繪出累計頻數或累計頻率。由表的上方向表的下方的頻數或頻率相加就稱爲“向下累計”,反之稱爲“向上累計”。
    累計頻率(或頻率)分佈曲線,可用以研究財富、土地和工資收入的分配是否公平。這種累計分佈曲線圖最早由美國洛倫茨博士(Dr. M. O. Lorenz)提出的,故又稱洛倫茨曲線圖。

2. 操作流程(圖示)

在這裏插入圖片描述

在SPSS 中進行頻數(率)分析的步驟爲

  1. 導入Excel文件
    文件:某車間工人每天加工某種零件件數
    在這裏插入圖片描述
    在這裏插入圖片描述
    選擇對應的excel文件,點擊打開
    在這裏插入圖片描述
    點擊確定,我們可以得到如下界面
    在這裏插入圖片描述
  2. 處理數據視圖
    我們只需保留前兩個有效的變量因此刪除V3、V4
    在這裏插入圖片描述
    在這裏插入圖片描述
  3. 選擇Analyze(分析)=>Descriptive Statistics(描述統計)=>Frequencies(頻率)…,彈出Frequencies(頻率)主對話框。現欲對 加工零件數 進行頻數分析,在對話框左側的變量列表中選加工零件數,單擊按鈕使之進入Variable(s)(變量)列表框,並選擇Display FrequencyTables 顯示頻率表。
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
  4. 可單擊Format…按鈕彈出Frequencies:Format(格式) 子對話框,在Order by欄中有四個選項
    Ascending values(按值的升序排序) 爲根據數值大小按升序從小到大作頻數分佈;
    Descending values(按值的降序排序) 爲根據數值大小按降序從大到小作頻數分佈;
    Ascending counts(按計數的升序排序) 爲根據頻數多少按升序從少到多作頻數分佈;
    Descending counts(按計數的降序排序) 爲根據頻數多少按降序從多到少作頻數分佈。
    這裏選Ascending values按計數的升序排序項後點Continue鈕返回Frequencies 主對話框。
    在這裏插入圖片描述
  5. 可單擊Statistics(統計)…按鈕,彈出Frequencies(頻率):Statistics(統計)子對話框,並單擊相應項目,在作頻數表分析的基礎上,附帶作各種統計指標的描述,特別是可進行任何水平的百分位數計算
    這裏不選
    在這裏插入圖片描述
  6. 可單擊Charts(圖表)…鈕,彈出Frequencies:Charts 子對話框,用戶可選三種圖形:直條圖(Bar Charts)、餅圖(Pie Charts)和直方圖(Histogram)。這裏選擇Histogram項,並選擇With Normal Curve 要求繪製正態曲線。單擊Continue 按鈕返回Frequencies主對話框,再單擊OK 鈕即可得到(累計)頻數(頻率)分佈表和直方圖
    在這裏插入圖片描述
  7. 不出意外的話,你應該會在輸出窗口中看到如下輸出結果
    在這裏插入圖片描述
    在這裏插入圖片描述
  8. 應該注意的是,SPSS 在未特別指定的情形下,直方圖或頻數分佈表是按照原始數值逐一作頻數分佈的,這與日常需要的等距分組、且組數保持在一定數目的要求不符
    在這裏插入圖片描述
  9. 預處理
    在調用Frequencies 統計過程命令之前,可先對原始數據進行預處理:已知最小值爲84,最大值爲128 , 故可要求分成5組,起點爲80,組距爲10。
    操作流程
    • 選擇Transform(轉換)=>Recode Into Different Variable(重新編碼爲不同變量)…
      在這裏插入圖片描述

    • 在彈出的Recode Into DifferentVariable(重新編碼爲不同變量對話框中選定加工零件數,單擊按鈕使之進入Numeric Variable → Output Variable(數字變量→輸出變量)列表框
      在這裏插入圖片描述
      在這裏插入圖片描述

    • Output Variable(輸出變量)欄Name(名稱) 文本框中輸入預處理後的加工零件數,單擊Change (變化量)按鈕表示生成新生成的變量名爲 預處理後的加工零件數。
      在這裏插入圖片描述
      在這裏插入圖片描述

    • 單擊Old and New Values(舊值和新值)按鈕彈出Record Into Different Variable(重新編碼爲不同變量):Old and New Values(舊值和新值) 子對話框;
      在這裏插入圖片描述

    • Old Value(舊值)選項單擊Range(範圍)項,輸入第一個分組的數值範圍:80~89,在New Value(新值)欄內輸入新值:80,單擊Add(添加)按鈕,依此將各組的範圍及對應的新值逐一輸入,最後單擊Continue 按鈕返回,再單擊OK 按鈕即完成。
      在這裏插入圖片描述
      在這裏插入圖片描述
      在這裏插入圖片描述
      在這裏插入圖片描述

    • 系統在原數據庫中生成一新變量爲 預處理後的加工零件數,這時再調用Frequencies 統計過程將輸出等距分組且組數爲5 的頻數分佈表。

      在這裏插入圖片描述
      在這裏插入圖片描述
      在這裏插入圖片描述

3. 統計數據的描述

將數據整理成頻率(頻數)分佈後,數據的數量規律性就可以大致地呈現在分佈的類型和特點上。但頻數分佈給予我們的是一個大致的分佈形狀,還缺少代表性的數量特徵值精確地描述出不同的統計數據分佈。作爲統計數據的代表值,一個是分佈的中心,反映分佈的集中趨勢,另一個是分佈的形狀,反映分佈的離散程序

3.1 分佈的中心

定義分佈的中心有許多不同的方式。這裏介紹三種最常用的,即衆數中位數平均數

  1. 衆數(mode)
    一個分佈的衆數定義爲頻數出現最多的變量值。在正態分佈和一般的偏態分佈中,分佈曲線最高點所對應的數值即是衆數。如果沒有明顯的最高點,衆數可以不存在。當然,如果有兩個最高點,也可以有兩個衆數。衆數很容易求得,一般只要看一眼即可。它特別使用於描述定類變量和定序變量的數據定距變量的數據分組後也可近似地用某個組的組中值來表示衆數的大小。但衆數並不是一個描述中心的很好的代表值,它常常依賴於數據的分組情況,即分組數改變的話衆數可能就會有較大的變化。而且衆數也可能不唯一。
  2. 中位數(median)與分位數
    中位數是數據排序後,位置在最中間的數值。顯然,中位數將數據分成兩半,一半數據比中位數大,一半數據比中位數小。用中位數來代表總體標誌值的一般水平,可以避免代表值受數列中極端值的影響,穩定性比較好,有時更有代表性
  3. 平均值(均值)(mean)
    平均數是數據集中趨勢的最主要測度值

3.2 分佈的形狀

只從均值來看待數據是片面的,我們還必須考慮數據的分佈形狀用於描述數據分佈形狀,即分佈關於其中心的波動程度的代表值有:極差內距方差標準差等,它們描述了分佈的離散程度和差異程度

  1. 極差(range)
    極差也稱爲全距,是最大值與最小值之間的距離,它是數據離散或差異程度的最簡單測度值。
  2. 內距(Inter-Quartile Range,IQR)
    內距又稱爲四分位差,是兩個四分位數之差,即內距IQR = 高四分位數 - 低四分位數。與極差類似,內距也是由兩個值之差決定的,也是不全面的。但由於這兩個值之差代表了中間50%部分的長度,所以比極差能更好地描述分佈的特徵。
    例如,若內距比較小,則說明數據比較集中在中位數附近反之則比較分散。內距常和中位數一起用來描述一個定距特別是定序測量數據的分佈。
  3. 方差(variance)和標準差(standard deviation)

3.3 偏度與峯度

前面討論了分佈的集中趨勢和離散趨勢。要全面瞭解分佈的特點,僅瞭解分佈的集中趨勢和離散程度是不夠的,還需要了解分佈是否對稱和集中趨勢高低等特徵偏度和峯度就是對分佈的進一步描述

  1. 偏度
    所謂偏度是指反映頻數分佈偏態方向和程度的測度。從方向上看,偏度分左偏和右偏兩種。
  2. 峯度
    所謂峯度,是指頻數分佈曲線高峯的形態,即反映分佈曲線的尖峭程度的測度。在頻數分佈中,有的頻數分佈曲線與正態曲線相比是尖頂,有的則是平頂,峯度就是用來衡量頻數分佈曲線的高聳程度的一個數字特徵。當峯度大於3時,表示分佈曲線的高峯是尖頂高峯;當峯度小於3時,表示分佈曲線的高峯是平頂高峯。

3.4 SPSS操作

  1. 導入數據
    文件:某車間工人每天加工某種零件件數
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
  2. Analyze(分析)=>Descriptives Statistics(描述性統計)=>Descriptives(描述)…, 打開Descriptives(描述)主對話框。在主對話框左邊列表中選定變量加工零件數單擊按鈕使之進入Variable(s)(變量)列表框
    在這裏插入圖片描述
    在這裏插入圖片描述
  3. 單擊Options(選項)…按鈕,打開Descriptives(描述):Options (選項)子對話框選擇均值(Mean)、總和(Sum)、標準差(Std. Deviation)、方差(Variance)、極差(Range)、最小值(Minimum)、最大值(Maximum)、偏度(Skewness)和峯度(Kurtosis),選好後單擊Continue按鈕返回Descriptives(描述)主對話框,再單擊OK按鈕即可得到各種統計量的計算結果。
    在這裏插入圖片描述
    在這裏插入圖片描述

四、由樣本推斷總體

統計推斷(Statistical inference)就是根據樣本的實際數據,對總體的數量特徵作出具有一定可靠程度的估計和判斷統計推斷的基本內容參數估計假設檢驗兩方面。概括地說,(參數估計)研究一個隨機變量,推斷它具有什麼樣的數量特徵,按什麼樣的模式來變動,這屬於估計理論的內容,而**(假設檢驗)推斷這些隨機變量的數量特徵和變動模式是否符合我們事先所作的假設**,這屬於檢驗理論的內容。

1. SPSS假設檢驗的實現方法

SPSS 提供了計算指定變量的綜合描述統計量的過程對均值進行比較檢驗的過程。

  1. 用於計算變量的綜合統計量的Means過程
    Analyze(分析)=>Compare Means(比較平均值)=>Means(平均值)
    在這裏插入圖片描述
  2. 用於單樣本的 t 檢驗過程
    Analyze=>Compare Means=>One-Sample T Test(單樣本T檢驗)
    在這裏插入圖片描述
  3. 用於獨立樣本的 t 檢驗過程
    Analyze=>Compare Means=>Independent-Sample T Test(獨立樣本T檢驗)
    用於檢驗是否兩個不相關的樣本來自具有相同均值的總體
    在這裏插入圖片描述
  4. 用於配對樣本的 t 檢驗過程
    Analyze=>Compare Means=>Paired-Sample T Test(配對樣本t檢驗)
    用於檢驗兩個相關的樣本是否來自具有相同均值的總體
    在這裏插入圖片描述

2. 例題

分別測得14 例老年性慢性支氣管炎病人及11例健康人的尿中17酮類固醇排出量(mg/dl)如下,試比較兩組均值有無顯著性差別(α = 0.05)。
在這裏插入圖片描述
操作指引

  1. 定義變量:把實際觀察值定義爲X,再定義一個變量G 來區分病人和健康人。輸入原始數據,在變量G 中,病人輸入1,健康人輸入2。在這裏插入圖片描述
    在這裏插入圖片描述
  2. 選擇Analyze=>Compare Means=>Independent-Samples T Test , 打開Independent-Samples T Test 主對話框。
    在這裏插入圖片描述
    在這裏插入圖片描述
  3. 從主對話框左側的變量列表中選X,單擊按鈕使之進入Test Variable(s)(檢驗變量)列表框,選G 單擊按鈕使之進入Grouping Variable (分組變量)框。
    在這裏插入圖片描述
  4. 單擊Define Groups(定義組) 按鈕彈出Define Groups 定義框,在Group 1 中輸入1,在Group 2中輸入2,單擊Continue 按鈕,返回Independent-Samples T Test 主對話框,單擊OK按鈕即完成。
    在這裏插入圖片描述
  5. 在輸出窗口生成的內容

在這裏插入圖片描述
6. 實驗結論

  • 檢驗結果如下,經 Levene 方差齊性檢驗:F = 0.440, p 值= 0.514, p >α ,兩總體方差無顯著性差異。
  • 第三行表示方差齊性情況下的t 檢驗的結果,第四行表示方差不齊情況下的t 檢驗的結果。依次顯示t 值(t-value)、自由度(df)、雙側檢驗p 值(Sig 2-Tail)等。
  • 本例屬方差齊性,故採用第三行(即Equal variances assumed)結果:t = −1.807, p = 0.084 < 0.1,差異顯著,即老年性慢性支氣管炎病人的尿中17 酮類固醇排出量低於健康人

五、方差分析

5.1 單因素方差分析

方差分析是檢驗兩個總體或多個總體的均值間差異是否具有統計意義的一種方法。方差分析與迴歸分析之間存在一定的關係。對於方差分析,所有的自變量都被視爲定類變量;而回歸分析中,自變量可以是各種測度的變量(包括定類變量、定序變量、定距變量和定比變量)。事實上,經常把方差分析看作迴歸分析的一種特例,幾乎所有方差分析模型可以由迴歸模型來表示,可以用迴歸分析的一般方法估計出相應的參數並進行推斷。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章