利用SPSS做數據分析②之數據處理2

接着上一篇數據處理的內容，我們今天一起來學習【數據合併、分組、標準化】：

1、數據合併（記錄合併）

記錄合併也叫縱向合併，是將具有共同的數據字段、結構，不同的數據表記錄，合併到一個新的數據表中。

現在有兩張表，一張“用戶明細-男”，一張“用戶明細-女”，他們擁有相同的數據字段、結構，只是記錄信息不一樣，爲了能夠進行整體的分析，我們需要將這兩張表合併到一張數據表中。

01 打開“用戶明細-男”文件，單擊【數據】菜單——將鼠標移至【合併文件】——選擇【添加個案】——彈出【添加個案】第一步對話框；
02 【添加個案】中——單擊【瀏覽】按鈕，瀏覽至存放數據的文件夾下，選擇“用戶明細-女”數據文件——單擊【打開】返回至【添加個案】——單擊【繼續】按鈕，彈出【添加個案】第二步對話框：
03 在【添加個案】中——確認【新的活動數據集中的變量】框中的變量是否正確——單擊【確定】按鈕，即可完成記錄合併的操作。

注意：

如果兩個數據集合並出現錯誤或失敗，請先返回到兩個數據集的【變量視圖】窗口中檢查：變量的數據類型、寬度、小數位數、值（標籤）、列（寬度）、測量及角色這些變量屬性設置是否一致，如有不一致，請將它們修改爲一樣的設置。

2、數據分組

數據分組：根據分析目的將數據進行等距或非等距分組，這個過程也稱爲數據離散化，一般用於查看分佈，如消費分佈、收入分佈、年齡分佈等。

其中用戶繪製分佈圖X軸的分組變量，是不能改變其順序的，一般按分組區間大小進行排列，這樣才能觀察研究數據的分佈規律。

2.1 可視分箱-數據分組功能

Excel中我們使用Vlookup函數進行匹配功能進行數據分組操作；
在SPSS 中數據分組不通過函數操作，有專門的數據分組功能——“可視分箱”。

我們以：用戶明細數據爲例瞭解一下用戶年齡分佈的特徵，現需將“年齡”變量進行分佈操作：

01 打開用戶明細，單擊【轉換】-選擇【可視分箱】——彈出【可視分箱】第一步對話框：
02 在【可視分箱】第一步對話框中，將“年齡”變量移至【要分箱的變量】框中，單擊【繼續】按鈕，彈出【可視分箱】第二步對話框：
03 在【可視分箱】第二步對話框中，在【分箱化變量】欄中輸入“年齡段”——單擊【生成分割點】按鈕——彈出【生成分割點】對話框：

在【第一個分割點的位置】欄中輸入：20，在【分隔點數】欄中輸入：4，在【寬度】欄中輸入：5——單擊【應用】按鈕，返回【可視分箱】第二步對話框：

爲什麼要設置成：20、4、5呢？
根據年齡分佈預覽圖，我們可以觀察到最小值是16，最大值是78；年齡主要分佈在20-35之間，我們可以把第一個分割點定位20，組距爲5，這樣20-35之間按組距5進行分組可以得到3個組，再加上前後2各組，就是5個組，4個分割點，分割點參數大致就是這樣確定的，沒有絕對的標準，只要能達到解決問題的目的即可。

04 在【可視分箱】第二步對話框中，單擊【生成標籤】按鈕——將生成對應的區間範圍標籤——單擊【確定】按鈕，即可得到“年齡段”變量。

我們這個例子進行的是等距分組，那麼，如果是不等距分組，該如何操作呢？
如果需要進行不等距分組，則可以在【可視分箱】第二步對話框下方的【網格】中，直接填入自定義的分割點，例如分別填入：20、25、35，第四個“高”會自動生成，然後單擊【生成標籤】按鈕，就可以生成對應的區間範圍標籤了：

2.2 重新編碼

對於不等距分組的操作，我們可以採用另外一種方法：重新編碼爲不同變量。

重新編碼可以把一個變量的數值按照指定要求賦予新的數值，也可以把連續變量重新編碼成離散變量。

例如：把年齡重新編碼爲年齡段。

-01 打開用戶明細數據文件——單擊【轉換】菜單——選擇【重新編碼爲不同變量】——彈出【重新編碼爲不同變量】對話框：

在【重新編碼爲不同變量】對話框中——將年齡移至【輸入變量->輸出變量】框中，在右邊的【輸出變量】的【名稱】欄中輸入“年齡段3”：

單擊【舊值和新值】按鈕——彈出【重新編碼爲不同變量：舊值和新值】對話框：

在【重新編碼爲不同變量：舊值和新值】對話框中，在左邊【舊值】框中選擇【範圍】項——分別依次輸入每個分組的範圍臨界值——同時需要在右邊【新值】框的【值】欄中輸入對應的新值——並且單擊【添加】按鈕——將舊值和新值對應關係加入【舊->新】框中——對應關係輸入完畢後，如圖：
單擊【繼續】按鈕——返回【重新編碼爲不同變量】對話框：

單擊【變化量】按鈕——使剛纔輸入的對應關係生效——單擊【確定】——完成“年齡段3”變量操作。

數據標準化，是將數據按比例縮放，使之落到一個特定區間。
數據標準化是爲了消除量綱（單位）的影響，方便進行比較分析。
常用到的數據標準化方法有：0-1標準化、Z標準化。

3.1 0-1標準化

0-1標準化也稱爲離散標準化，是對原始數據進行線性變換，是結果落到【0,1】區間。
0-1標準化還有個好處，就是很方便的做到十分制、百分制的換算，只需乘上10或100即可，其他分制同理：

計算公式：
x* = x-min / max-min
注：max是變量的最大值，min爲變量的最小值。

例如：我們根據用戶明細數據爲例進行介紹，對用戶的年齡進行
0-1標準化計算處理，得到一個“標準化值”變量。

01 打開用戶明細數據文件——單擊【轉換】菜單——選擇【計算變量】——彈出【計算變量】對話框：
02 在【計算變量】對話框中——在【數字表達式】框中輸入公式“（年齡-16）/ （78-16）”——完成公式的編寫：
03 在【目標變量】框中，輸入變量名稱“標準化值”——在【類型與標籤】功能中設置類型爲“數值”——單擊【確定】按鈕——返回【計算變量】對話框——單擊【確定】按鈕——新增一個“標準化值”：

如果沒有之前的數據分組可視化操作，那麼這個最大值、最小值如何得到？
答：這個可以通過“描述”、“探索”等分析功能得到的。