常用數據處理方法,你都會嗎?

數據編輯處理是在統計和分析數據時,第一步要做的。尤其是當面對大量數據時,數據處理是一個重要的過程,可以達到提高處理效率及精度的目的。

爲配合進行更好的分析,研究過程過可能涉及到以下數據處理工作:

  1. 定義變量名
  2. 制定數據標籤
  3. 數據編碼
  4. 計算變量
  5. 無效樣本處理
  6. 特殊值處理等

 

定義變量

定義變量,就是給每個指標起名字。每個變量都需要有對應的變量名,以便得到更規範的表格呈現和操作體驗,spssau中通過“標題修改”定義變量名,一般用於以下情況:

  1. 上傳數據後,對不規範標題修改
  2. 完成數據編碼後,進行標題修改
  3. 完成生成變量後,進行標題修改
  4. 有多餘無意義的標題,進行刪除標題(一次只能刪除一個標題)

 

數據標籤

除了標題名需要定義,數據標籤也是一個重要的屬性。數據標籤用於標識數據中的數字代表的意義,對數據的含義進行解釋說明,比如用1表示男,用2表示女。數據標籤僅影響表格展示,完全不影響分析結果。

 

數據編碼

量表問卷中經常會使用到反向計分,反項題得到數據在分析以前,要先進行重新編碼。

數據編碼通常除了用於處理反項題,還會用於數據組合。

比如1代表高中,2代表大專,3代表本科,4代表碩士,5代表博士。希望組合成三組分別是:本科以下,本科,碩士及以上.則可處理爲:1->1,2->1,3->2,4->3,5->3,最終數字1代表本科以下,2代表本科,3代表碩士及以上

 

無效樣本

在數據分析之前,首先需要進行數據查看,包括數據中是否有異常值,無效樣本等。如果有無效樣本則需要進行處理,然後再進行分析。另外如果數據中有異常值也需要進行處理後再進行分析。無效樣本會干擾分析研究,扭曲數據結論等,因而在分析前先對無效樣本進行標識顯示尤其必要。

 

如果數據來源爲問卷,則很可能出現無效樣本,因爲填寫問卷的樣本是否真實填寫無從判定;如果數據庫下載或者使用二手數據等,也可能出現大量缺失數據等無效樣本。

 

無效樣本的常見使用場景:

  1. 問卷研究中亂填問卷的樣本;
  2. 數據庫下載的數據中有大量缺失數據;
  3. 二手數據中包括無效或缺失數據;
  4. 其它收集數據中有無效樣本時。

 

缺失值或異常值

缺失值或異常值是一個重要但容易被忽略的問題。不論什麼研究數據,如果數據中存在可能的異常值,均應在分析之前處理,防止異常值帶來的干擾,比如異常值會扭曲X和Y之間的相關關係,迴歸關係等,異常錯誤的結論;當然其它研究方法基本均會受到異常值的干擾,異常值較多或者異常稍大時,此時會直接扭曲結論。

 

計算變量

上傳數據,並修改好各標題名、數據標籤後,我們就已經得到了原始的數據庫,可以開始進行數據分析了。

不過實際情況中,往往不能直接使用原始數據進行統計分析,原因是數據中可能存在因錄入錯誤或原始問卷記錄錯誤導致的不正確的數據。或者不同研究目的,需要結合不同分析方法進行分析,而不同的統計方法對變量的需求也不盡相同,因此需要對數據重新調整或轉換

計算變量功能是指對問卷某題項或者多個題項進行處理的一種數學變換。通常情況下,問卷研究中共有兩種情況會使用此功能,分別是變量生成和變量處理。

多數情況下,一個變量由多個題項表示,而最終進行相關、迴歸等分析時僅能使用一個變量,此時則需要將多個題項進行計算平均值處理,多個題項的綜合平均值代表此變量。另外,如果需要對數據取對數,或者進行題項或者變量之間的加減計算時,均需要使用計算變量功能實現。計算變量功能僅適用於定量數據,分類數據不需要進行加減或者取平均值處理等。

比如網購滿意度由4項表示,希望將4項處理成一個整體(網購滿意度),則將此4項進行選中,並且告訴SPSSAU‘變量名字’。生成變量可做以下功能:

  1. 平均值、求和、中位數、乘積
  2. 標準化、中心化、最大最小歸一化
  3. 虛擬變量
  4. 平方、根號
  5. 自然對數、10爲底對數
  6. 絕對值
  7. 正向化、逆向化

總結來說,數據處理是很容易被輕視的一部分內容,但往往數據處理的好壞會決定之後工作的難度,並直接影響到數據分析的結果,數據處理的好,會簡化後面的數據分析工作,因此一定要把數據處理重視起來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章