利用SPSS做數據分析②之數據處理2

接着上一篇數據處理的內容,我們今天一起來學習【數據合併、分組、標準化】:
在這裏插入圖片描述

1、數據合併(記錄合併)

記錄合併也叫縱向合併,是將具有共同的數據字段、結構,不同的數據表記錄,合併到一個新的數據表中。

現在有兩張表,一張“用戶明細-男”,一張“用戶明細-女”,他們擁有相同的數據字段、結構,只是記錄信息不一樣,爲了能夠進行整體的分析,我們需要將這兩張表合併到一張數據表中。

  • 01 打開“用戶明細-男”文件,單擊【數據】菜單——將鼠標移至【合併文件】——選擇【添加個案】——彈出【添加個案】第一步對話框;
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 02 【添加個案】中——單擊【瀏覽】按鈕,瀏覽至存放數據的文件夾下,選擇“用戶明細-女”數據文件——單擊【打開】返回至【添加個案】——單擊【繼續】按鈕,彈出【添加個案】第二步對話框:
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 03 在【添加個案】中——確認【新的活動數據集中的變量】框中的變量是否正確——單擊【確定】按鈕,即可完成記錄合併的操作。
    在這裏插入圖片描述
    在這裏插入圖片描述
    注意:

如果兩個數據集合並出現錯誤或失敗,請先返回到兩個數據集的【變量視圖】窗口中檢查:變量的數據類型、寬度、小數位數、值(標籤)、列(寬度)、測量及角色這些變量屬性設置是否一致,如有不一致,請將它們修改爲一樣的設置。

2、數據分組

數據分組:根據分析目的將數據進行等距或非等距分組,這個過程也稱爲數據離散化,一般用於查看分佈,如消費分佈、收入分佈、年齡分佈等。

其中用戶繪製分佈圖X軸的分組變量,是不能改變其順序的,一般按分組區間大小進行排列,這樣才能觀察研究數據的分佈規律。

2.1 可視分箱-數據分組功能

Excel中我們使用Vlookup函數進行匹配功能進行數據分組操作;
在SPSS 中數據分組不通過函數操作,有專門的數據分組功能——“可視分箱”。

我們以:用戶明細 數據爲例瞭解一下用戶年齡分佈的特徵,現需將“年齡”變量進行分佈操作:

  • 01 打開用戶明細,單擊【轉換】-選擇【可視分箱】——彈出【可視分箱】第一步對話框:
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 02 在【可視分箱】第一步對話框中,將“年齡”變量移至【要分箱的變量】框中,單擊【繼續】按鈕,彈出【可視分箱】第二步對話框:
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 03 在【可視分箱】第二步對話框中,在【分箱化變量】欄中輸入“年齡段”——單擊【生成分割點】按鈕——彈出【生成分割點】對話框:
    在這裏插入圖片描述
    在這裏插入圖片描述
    在【第一個分割點的位置】欄中輸入:20,在【分隔點數】欄中輸入:4,在【寬度】欄中輸入:5——單擊【應用】按鈕,返回【可視分箱】第二步對話框:

爲什麼要設置成:20、4、5呢?
根據年齡分佈預覽圖,我們可以觀察到最小值是16,最大值是78;年齡主要分佈在20-35之間,我們可以把第一個分割點定位20,組距爲5,這樣20-35之間按組距5進行分組可以得到3個組,再加上前後2各組,就是5個組,4個分割點,分割點參數大致就是這樣確定的,沒有絕對的標準,只要能達到解決問題的目的即可。

在這裏插入圖片描述

  • 04 在【可視分箱】第二步對話框中,單擊【生成標籤】按鈕——將生成對應的區間範圍標籤——單擊【確定】按鈕,即可得到“年齡段”變量。
  • 在這裏插入圖片描述
    在這裏插入圖片描述

我們這個例子進行的是等距分組,那麼,如果是不等距分組,該如何操作呢?
如果需要進行不等距分組,則可以在【可視分箱】第二步對話框下方的【網格】中,直接填入自定義的分割點,例如分別填入:20、25、35,第四個“高”會自動生成,然後單擊【生成標籤】按鈕,就可以生成對應的區間範圍標籤了:

在這裏插入圖片描述
在這裏插入圖片描述

2.2 重新編碼

對於不等距分組的操作,我們可以採用另外一種方法:重新編碼爲不同變量。

重新編碼可以把一個變量的數值按照指定要求賦予新的數值,也可以把連續變量重新編碼成離散變量。

例如:把年齡重新編碼爲年齡段。

-01 打開用戶明細數據文件——單擊【轉換】菜單——選擇【重新編碼爲不同變量】——彈出【重新編碼爲不同變量】對話框:
在這裏插入圖片描述
在這裏插入圖片描述
在【重新編碼爲不同變量】對話框中——將年齡移至【輸入變量->輸出變量】框中,在右邊的【輸出變量】的【名稱】欄中輸入“年齡段3”:
在這裏插入圖片描述
單擊【舊值和新值】按鈕——彈出【重新編碼爲不同變量:舊值和新值】對話框:
在這裏插入圖片描述
在【重新編碼爲不同變量:舊值和新值】對話框中,在左邊【舊值】框中選擇【範圍】項——分別依次輸入每個分組的範圍臨界值——同時需要在右邊【新值】框的【值】欄中輸入對應的新值——並且單擊【添加】按鈕——將舊值和新值對應關係加入【舊->新】框中——對應關係輸入完畢後,如圖:
單擊【繼續】按鈕——返回【重新編碼爲不同變量】對話框:
在這裏插入圖片描述
單擊【變化量】按鈕——使剛纔輸入的對應關係生效——單擊【確定】——完成“年齡段3”變量操作。
在這裏插入圖片描述
在這裏插入圖片描述
數據標準化,是將數據按比例縮放,使之落到一個特定區間。
數據標準化是爲了消除量綱(單位)的影響,方便進行比較分析。
常用到的數據標準化方法有:0-1標準化、Z標準化。

3.1 0-1標準化

0-1標準化也稱爲離散標準化是對原始數據進行線性變換,是結果落到【0,1】區間。
0-1標準化還有個好處,就是很方便的做到十分制、百分制的換算,只需乘上10或100即可,其他分制同理:

計算公式:
x* = x-min / max-min
注:max是變量的最大值,min爲變量的最小值。

例如:我們根據用戶明細數據爲例進行介紹,對用戶的年齡進行
0-1標準化計算處理,得到一個“標準化值”變量。

  • 01 打開用戶明細數據文件——單擊【轉換】菜單——選擇【計算變量】——彈出【計算變量】對話框:
    在這裏插入圖片描述
  • 02 在【計算變量】對話框中——在【數字表達式】框中輸入公式“(年齡-16)/ (78-16)”——完成公式的編寫:
    在這裏插入圖片描述
  • 03 在【目標變量】框中,輸入變量名稱“標準化值”——在【類型與標籤】功能中設置類型爲“數值”——單擊【確定】按鈕——返回【計算變量】對話框——單擊【確定】按鈕——新增一個“標準化值”:
    在這裏插入圖片描述
    在這裏插入圖片描述
    如果沒有之前的數據分組可視化操作,那麼這個最大值、最小值如何得到?
    答:這個可以 通過“描述”、“探索”等分析功能得到的。

3.2 Z標準化

Z標準化:也稱爲標準差標準化,它是將變量中的觀察值(原數據)減去該變量的平均值,然後除以該變量的標準差。經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,也是SPSS中最常用的標準化方法。

計算公式:

X*= x-μ / σ
注:μ爲變量的均值,σ爲變量的標準差。

我們對用戶的年齡進行Z標準化計算處理,SPSS提供了一個可以直接得到Z標準化的功能,我們無須使用【計算變量】對話框手工輸入公式進行計算。

  • 01 打開用戶明細數據文件——單擊【分析】菜單——將鼠標移至【描述統計】——選擇【描述】——彈出【描述】對話框:
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 02 在【描述】對話框——將“年齡”變量移至【變量】框中——勾選【將標準化值另存爲變量】複選框——單擊【確定】——就可以在原數據中“出生年月”變量後面新增一個名爲:Z年齡 的變量。

  • 在這裏插入圖片描述

常用的數據處理方法與技巧主要是這些,只要掌握它們的原理,並且能夠做到靈活組合運用到實際工作中去就好了。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章