接着上一篇數據處理的內容,我們今天一起來學習【數據合併、分組、標準化】:
1、數據合併(記錄合併)
記錄合併也叫縱向合併,是將具有共同的數據字段、結構,不同的數據表記錄,合併到一個新的數據表中。
現在有兩張表,一張“用戶明細-男”,一張“用戶明細-女”,他們擁有相同的數據字段、結構,只是記錄信息不一樣,爲了能夠進行整體的分析,我們需要將這兩張表合併到一張數據表中。
- 01 打開“用戶明細-男”文件,單擊【數據】菜單——將鼠標移至【合併文件】——選擇【添加個案】——彈出【添加個案】第一步對話框;
- 02 【添加個案】中——單擊【瀏覽】按鈕,瀏覽至存放數據的文件夾下,選擇“用戶明細-女”數據文件——單擊【打開】返回至【添加個案】——單擊【繼續】按鈕,彈出【添加個案】第二步對話框:
- 03 在【添加個案】中——確認【新的活動數據集中的變量】框中的變量是否正確——單擊【確定】按鈕,即可完成記錄合併的操作。
注意:
如果兩個數據集合並出現錯誤或失敗,請先返回到兩個數據集的【變量視圖】窗口中檢查:變量的數據類型、寬度、小數位數、值(標籤)、列(寬度)、測量及角色這些變量屬性設置是否一致,如有不一致,請將它們修改爲一樣的設置。
2、數據分組
數據分組:根據分析目的將數據進行等距或非等距分組,這個過程也稱爲數據離散化,一般用於查看分佈,如消費分佈、收入分佈、年齡分佈等。
其中用戶繪製分佈圖X軸的分組變量,是不能改變其順序的,一般按分組區間大小進行排列,這樣才能觀察研究數據的分佈規律。
2.1 可視分箱-數據分組功能
Excel中我們使用Vlookup函數進行匹配功能進行數據分組操作;
在SPSS 中數據分組不通過函數操作,有專門的數據分組功能——“可視分箱”。
我們以:用戶明細 數據爲例瞭解一下用戶年齡分佈的特徵,現需將“年齡”變量進行分佈操作:
- 01 打開用戶明細,單擊【轉換】-選擇【可視分箱】——彈出【可視分箱】第一步對話框:
- 02 在【可視分箱】第一步對話框中,將“年齡”變量移至【要分箱的變量】框中,單擊【繼續】按鈕,彈出【可視分箱】第二步對話框:
- 03 在【可視分箱】第二步對話框中,在【分箱化變量】欄中輸入“年齡段”——單擊【生成分割點】按鈕——彈出【生成分割點】對話框:
在【第一個分割點的位置】欄中輸入:20,在【分隔點數】欄中輸入:4,在【寬度】欄中輸入:5——單擊【應用】按鈕,返回【可視分箱】第二步對話框:
爲什麼要設置成:20、4、5呢?
根據年齡分佈預覽圖,我們可以觀察到最小值是16,最大值是78;年齡主要分佈在20-35之間,我們可以把第一個分割點定位20,組距爲5,這樣20-35之間按組距5進行分組可以得到3個組,再加上前後2各組,就是5個組,4個分割點,分割點參數大致就是這樣確定的,沒有絕對的標準,只要能達到解決問題的目的即可。
- 04 在【可視分箱】第二步對話框中,單擊【生成標籤】按鈕——將生成對應的區間範圍標籤——單擊【確定】按鈕,即可得到“年齡段”變量。
我們這個例子進行的是等距分組,那麼,如果是不等距分組,該如何操作呢?
如果需要進行不等距分組,則可以在【可視分箱】第二步對話框下方的【網格】中,直接填入自定義的分割點,例如分別填入:20、25、35,第四個“高”會自動生成,然後單擊【生成標籤】按鈕,就可以生成對應的區間範圍標籤了:
2.2 重新編碼
對於不等距分組的操作,我們可以採用另外一種方法:重新編碼爲不同變量。
重新編碼可以把一個變量的數值按照指定要求賦予新的數值,也可以把連續變量重新編碼成離散變量。
例如:把年齡重新編碼爲年齡段。
-01 打開用戶明細數據文件——單擊【轉換】菜單——選擇【重新編碼爲不同變量】——彈出【重新編碼爲不同變量】對話框:
在【重新編碼爲不同變量】對話框中——將年齡移至【輸入變量->輸出變量】框中,在右邊的【輸出變量】的【名稱】欄中輸入“年齡段3”:
單擊【舊值和新值】按鈕——彈出【重新編碼爲不同變量:舊值和新值】對話框:
在【重新編碼爲不同變量:舊值和新值】對話框中,在左邊【舊值】框中選擇【範圍】項——分別依次輸入每個分組的範圍臨界值——同時需要在右邊【新值】框的【值】欄中輸入對應的新值——並且單擊【添加】按鈕——將舊值和新值對應關係加入【舊->新】框中——對應關係輸入完畢後,如圖:
單擊【繼續】按鈕——返回【重新編碼爲不同變量】對話框:
單擊【變化量】按鈕——使剛纔輸入的對應關係生效——單擊【確定】——完成“年齡段3”變量操作。
數據標準化,是將數據按比例縮放,使之落到一個特定區間。
數據標準化是爲了消除量綱(單位)的影響,方便進行比較分析。
常用到的數據標準化方法有:0-1標準化、Z標準化。
3.1 0-1標準化
0-1標準化也稱爲離散標準化,是對原始數據進行線性變換,是結果落到【0,1】區間。
0-1標準化還有個好處,就是很方便的做到十分制、百分制的換算,只需乘上10或100即可,其他分制同理:
計算公式:
x* = x-min / max-min
注:max是變量的最大值,min爲變量的最小值。
例如:我們根據用戶明細數據爲例進行介紹,對用戶的年齡進行
0-1標準化計算處理,得到一個“標準化值”變量。
- 01 打開用戶明細數據文件——單擊【轉換】菜單——選擇【計算變量】——彈出【計算變量】對話框:
- 02 在【計算變量】對話框中——在【數字表達式】框中輸入公式“(年齡-16)/ (78-16)”——完成公式的編寫:
- 03 在【目標變量】框中,輸入變量名稱“標準化值”——在【類型與標籤】功能中設置類型爲“數值”——單擊【確定】按鈕——返回【計算變量】對話框——單擊【確定】按鈕——新增一個“標準化值”:
如果沒有之前的數據分組可視化操作,那麼這個最大值、最小值如何得到?
答:這個可以 通過“描述”、“探索”等分析功能得到的。
3.2 Z標準化
Z標準化:也稱爲標準差標準化,它是將變量中的觀察值(原數據)減去該變量的平均值,然後除以該變量的標準差。經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,也是SPSS中最常用的標準化方法。
計算公式:
X*= x-μ / σ
注:μ爲變量的均值,σ爲變量的標準差。
我們對用戶的年齡進行Z標準化計算處理,SPSS提供了一個可以直接得到Z標準化的功能,我們無須使用【計算變量】對話框手工輸入公式進行計算。
- 01 打開用戶明細數據文件——單擊【分析】菜單——將鼠標移至【描述統計】——選擇【描述】——彈出【描述】對話框:
- 02 在【描述】對話框——將“年齡”變量移至【變量】框中——勾選【將標準化值另存爲變量】複選框——單擊【確定】——就可以在原數據中“出生年月”變量後面新增一個名爲:Z年齡 的變量。
常用的數據處理方法與技巧主要是這些,只要掌握它們的原理,並且能夠做到靈活組合運用到實際工作中去就好了。