SPSS數據處理有六個步驟,分別是:
- 數據導入
- 數據清洗
- 數據抽取
- 數據合併
- 數據分組
- 數據標準化
數據處理是根據數據分析的目的,將收集到的數據,用適當的處理方法進行加工、整理,形成適合數據分析的要求樣式,它是數據分析前必不可少的工作,並且在整個數據分析工作量中佔據了大部分比例。
我們先來學習前三個步驟:數據導入、數據清洗、數據抽取
先來了解下數據變量是什麼?
在數據庫中,我們將數據變量稱爲字段,而在統計學中我們稱之爲變量。
常用的數據類型:
字符型數據、數值型數據、日期型數據
字符型數據
文本數據,有字符串組成,不能進行算數運算的文本數據類型,包括中文字符、英文字符、數字字符(非數值型)等字符。
字符型數據是一種分類數據。
數值型數據
自然數或度量單位進行計量的數值數據。
特殊的分類數據。
日期型數據
表示日期或時間數據,它可以進行算數運算,所以它是一種特殊的數值型數據。
日期型數據主要應用在時間序列分析中。
變量尺度:
在統計學中,按照對事物描述的精確程度,將採用的測量尺度從低到高分爲4個層次:定類尺度、定序尺度、定距尺度和定比尺度。
定類尺度:對事物類別或屬性的一種測度。
- 特點:值只能代表事物的類別和屬性,不能比較各類別之間的大小。
- 例如:性別、職業…
- SPPS中,使用" 名義(N)"來表示定類尺度。
- 注意:使用定類尺度對事物進行分類時,一定要符合相互獨立,完全窮盡原則,也就是麥肯錫的經典原則——MECE原則。相互獨立意味着對事物的分類在同一緯度上並且有明確區分、不可重疊的;完全窮盡則意味着全面、周密,對事物的分類沒有遺漏。
定序尺度:對事物之間等級或者順序的一種測度。
- 計算結果只能排序,不能進行算術運算。
- 例如:學歷、職級…
- 在SPSS 中,使用"序號(O)"來表示定序尺度。
定距尺度:對事物次序之間間距的一種測度,只可進行加減運算,不可進行乘除運算。
- 不僅能夠對事物進行排序,還能精確計算次序之間的差距是多少。
- 例如:溫度、時間…
定比尺度:測量兩個測量值之間比值的一種測度。
- 加減乘除運算。
- 例如:收入、用戶…
定比尺度和定距尺度最大的區別:
定比尺度——有固定的絕對“0”值
定距尺度——沒有固定的絕對“0”值
定距變量中“0”不表示沒有,只是測量值; 定比變量中“0”表示沒有。
定距與定比——SPPS中統稱爲“度量(S)”。
1、數據導入
常用的數據文件有兩種:EXCEL數據文件和txt數據文件。
1.1 Excel數據導入
步驟:
文件——打開——數據——打開數據——選擇EXCEL數據文件;
SPSS 會根據實際情況設置好相關參數,我們只需確認參數是否設置正確即可,不正確,修改相應參數蘇設置,確認無誤後,點擊確定按鈕。
單擊文件——選擇保存或另存爲——將數據另存爲——SPSS默認保存格式:*.sav——確定即可。
1.1 txt 數據導入
這裏插一句:當你在導入文本文件時顯示在第一步就顯示亂碼的話是你的因爲你的編碼格式沒有選對(反正我是這樣子的),如果亂碼就選擇本地編碼即可。
txt 文本導入其實和EXCEL數據文件導入的方式是類似的。
文件——打開——數據——打開數據——選擇文本數據,更改文件類型——打開;
①文本導入嚮導——各變量之間用逗號隔開——下一步;
②文本導入嚮導——設置變量的安排方式和變量名稱(變量的安排方式:各變量之間是如何分隔的,以逗號、製表符等分隔符號分隔的,還是以每個變量的寬度分隔的);
③文本導入嚮導——進行個案設置(數據記錄)——均保持默認即可——下一步;
④文本導入嚮導——SPSS根據導入數據特點——自動勾選逗號分隔符——下一步;
⑤文本導入嚮導——SPSS根據導入數據特點——自動設置每個變量數據格式——確認是否設置正確(特別是日期型變量)——下一步;
⑥文本導入嚮導——如果不需要保存剛纔設置過的格式或者獲得導入過程的語法——直接單擊(完成)按鈕——就會成功導入SPSS中。
2、數據清洗
數據清洗:
將重複的數據篩選清除,將損失的數據補充完整,將錯誤的數據糾正或刪除。
Excel中有刪除重複項是的功能,可以直接刪除重複的數據記錄。
SPSS沒有提供類似於Excel刪除重複項的功能,但我們可以分步操作:
- 先將重複記錄找出並標記;
- 根據是否重複標記排序,將重複記錄排在一起;
- 刪除
①打開sav數據文件——數據——標識重複個案;
②在標識重複個案中——將所有變量都放入【定義匹配個案的依據】框中——其他選項若無特殊需求,保持默認即可;
③這時就生成一個重複數據記錄標識變量“最後一個基本個案”,0代表重複個案,1代表唯一或基本主個案;
④選中“最後一個基本個案”變量——右鍵選擇【升序排列】項——將“最後一個基本個案”變量值爲0(重複)的個案都排在前面了;
⑤選中“最後一個基本個案”——變量值爲0(重複)的個案——單擊右鍵——選擇【清除】項——成功刪除重複的個案。
3、數據抽取
數據抽取,也稱爲數據拆分,是指保留、抽取原數據表中的某些字段、記錄的部分信息,形成一個新字段、新紀錄。
我們學習:字段拆分、隨機抽樣 兩種方法。
3.1 字段拆分
在Excel中我們經常使用Right、Left、Mid函數進行相關字段的抽取、拆分,在SPSS中字段的拆分操作與Excel中的字段拆分操作類似,主要使用Substr函數進行字段拆分操作,跟Excel的Mid函數用法是一致的。
Substr(字符串,提取的起始位置,提取的字符個數)
現在我們用Substr函數對數據中“身份證號碼”變量進行出生年份、月份、日進行抽取:
打開數據文件——點擊轉換——選擇計算變量;
在計算變量中——選擇【函數組】框中“字符串”類——【函數和特殊變量】框中雙擊“Char.Substr(3)”函數——這時Char.Substr(3)函數就被移入到【數字表達式】中——將表達式修改爲“CHAR.SUBSTR(身份證號碼,7,4)”——這樣就完成了公式的編寫;
在目標變量中——輸入變量名稱:年份——【類型於標籤】功能中設置類型爲:字符串——確定——這樣就新增了一個“年份”變量;
3.2 隨機抽樣
隨機抽樣,是按照隨機的原則,也就是保證總體中每個單位都有同等機會被抽中的原則,進行樣本抽取的一種方法。
隨機抽樣方法主要有:簡單隨機抽樣、分層抽樣、系統抽樣等。
在SPSS 中,主要使用“選擇個案”中的隨機抽樣功能來實現。
數據文件——數據——選擇個案:隨機抽樣;
選擇個案——選擇——隨機個案樣本——單擊【樣本】按鈕;
【選擇個案:隨機抽樣】——基於近似百分比或精確的個案數來隨機抽取樣本——我們這個例子選擇:採用近似百分比的方式抽取——【大約】後輸入:20——表示定義隨機抽取大約20%的樣本量——繼續——返回【選擇個案】——確定。
這樣我們就完成了隨機抽樣,大約20%的樣本量。
如圖,SPSS在數據表最後一列新增filter_$變量,0表示記錄未被選中,1表示記錄被選中抽取;
同時,對沒有選中抽取的記錄號使用斜線 " / " 進行標記,在不關閉SPSS的情況下,後續的其他數據操作都僅對選中抽取的記錄進行分析。
如果希望將抽樣得到的數據單獨存爲一份新的數據文件,用於其他數據分析,則可以在第3步返回的【選擇個案】對話框的【輸出】框中,選擇【將選定個案複製到新數據集】項,並定義輸入一個數據集名稱,單擊【確定】按鈕後,抽樣得到的數據將以一個新的SPSS數據窗口存放,最後將數據保存即可得到一份新的數據文件。
補充:
數據處理-未完待續~~