spss數據的預處理

數據清洗:對獲取的原始數據中的缺失值進行填補,分析數據中是否存在離羣點,對噪聲數據進行平滑等,並利用適當的技術對這些“髒數據”進行清洗,提高數據的質量。
數據集成:將來自不同數據源的數據進行合併,去除可能存在的冗餘數據,保證數據的一致性。
數據變換:對數據進行規範化處理,將數據轉換爲有利於數據挖掘的形式。
數據規約::將數據集轉換爲相對簡單的形式。若需要對離散型數據進行挖掘需要先將連續型數據量化
數據預處理的其他功能:轉置、加權、數據拆分等。

預處理的內容:

  • 數據的排序
    SPSS的數據排序是將數據編輯窗口中的數據按照某個或多個指定變量的變量值升序或降序重新排列。這裏的變量也稱爲排序變量。
    排序變量只有一個時,排序稱爲單值排序。排序變量有多個時,排序稱爲多重排序。
    多重排序中,第一個指定的排序變量稱爲主排序變量,其他依次指定的變量分別稱爲第二排序變量、第三排序變量等。
    SPSS數據排序的基本操作步驟
    (1)選擇菜單Data-Sort Cases
    (2)將主排序變量從左邊的列表中選到Sort by框中,並在Sort Order框中選擇按該變量的升序還是降序排序。
    (3)如果是多重排序,還要一次指定第二、第三排序變量及相應的排序規則。
    在這裏插入圖片描述

  • 變量計算:
    數據的轉換處理是在原有數據的基礎上,計算產生一些含有更豐富信息的新數據。例如根據職工的基本工資、失業保險、獎金等數據,計算實際月收入,這些新變量具有更直觀更有效的特點。
    在這裏插入圖片描述

  • 數據選取
    數據選取就是根據分析的需要,從已收集到的大批量數據(總體)中按照一定的規則抽取部分數據(樣本)參與分析的過程,通常也稱爲抽樣。
    SPSS可根據指定的抽樣方法從數據編輯窗口中選出部分樣本以實現數據選取,這樣後面的分析操作就只針對選出的數據,直到用戶取消這種選取爲止。
    在這裏插入圖片描述

  • 數據分組
    數據分組就是根據統計研究的需要,將數據按照某種標準重新劃分爲不同的組別。在數據分組的基礎上進行的頻數分析更能夠概括和體現數據的分佈特徵。爲適用於不同的統計分析需要,SPSS提供了以下幾種數據分組方法:
    單變量值分組、組距分組

SPSS單變量值分組的基本操作步驟:
(1)選擇菜單Transform-Automatic Recode
(2)將分組變量選擇到Variable-New Name框中
(3)在New Name框後輸入存放分組結果的變量名,並單擊Add New Name按鈕
(4)在Recode Starting from框中選擇單變量值分組按升序還是按降序進行。Lowest value表示升序;Highest value表示降序。

Into Same Variables分組操作
(1)選擇菜單Transform-Recode- Into Same Variables。
(2)在出現的窗口中將分組變量選擇到Variables框中。
(3)單擊Old and New Values按鈕進行分組區間定義。
(4)在分組區間定義窗口中指定分組區間的下限和上限,並在New Value框中給出該區間對應的分組值。單擊Add按鈕確認分組區間並加到Odd→New框中。單擊Change和Remove按鈕來修改和刪除分組區間。
(5)如果僅對符合一定條件的個案分組,則單擊If按鈕並輸入SPSS條件表達式。否則,本步可略去。

Into Different Variables分組操作
(1)選擇菜單Transform-Recode- Into Different Variables。
(2)在出現的窗口中將分組變量選擇到Input Variable →Output Variable框中。
(3)在Output Variable後輸入存放分組結果的變量名,並單擊Change按鈕確認。可以在Label後輸入相應的變量名標籤。
(4)單擊Old and New Values按鈕進行分組區間定義(方法與前面相似)。
(5)如果僅對符合一定條件的個案分組,則單擊If按鈕並輸入SPSS條件表達式。否則,本步可略去。

  • 數據預處理的其他功能:轉置、加權、數據拆分等。

SPSS的數據轉置就是將數據編輯窗口中數據的行列互換。基本操作步驟如下:
(1)選擇菜單Data-Transpose。
(2)指定數據轉置後應保留哪些變量,將它們選入Variables框中,未被選中的變量將在新文件中缺失。
(3)指定轉置後數據文件中各變量如何取名。

SPSS中指定加權變量的操作步驟是:
(1)選擇菜單Data-Weight Cases。
(2)選擇Weight Cases by選項,並將某變量作爲加權變量選到Weight Cases by框中。
注意的是一旦指定了加權變量,那麼以後的分析處理中加權是一直有效的,直到取消加權爲止。取消加權應選擇Do not weight cases選項。

  • 數據清洗
    在這裏插入圖片描述
  • 計數與分類彙總
    (1)選擇菜單Data-Aggregate,出現如下所示的窗口:
    在這裏插入圖片描述
    (2)將分類變量選到Break Variable(s)框中
    (3)將彙總變量選到Summaries of Variable(s)框中
    (4)單擊Function按鈕,指定對彙總變量計算哪些統計量。SPSS默認計算均值。
    (5)指定將分類彙總結果保存到何處。有三種選擇:
    第一,Add Aggregated Variables to working data file,表示將結果存放到當前數據編輯窗口中。
    第二,Create new data file,表示將結果存放到系統默認的名爲aggr.sav的SPSS數據文件中,可以單擊File按鈕,重新指定文件名;
    第三,Replace working data file,表示用分類彙總結果覆蓋數據編輯窗口中的數據。
    一般選擇第二種方式,結果比較清晰。
    (6)單擊Name&Label按鈕,重新指定結果文件中的變量名或添加變量名標籤。SPSS默認的變量名爲原變量名後加_統計量名稱(如a_mean)。
    (7)如果希望在結果文件中保存各分類組的個案數,則選擇Number of case選項。於是,SPSS會在結果文件中自動生成一個默認名爲N_Break的變量,可以修改該變量名。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章