【在線SPSS】搞定數據分析,需要這樣的思維方式

目錄

數據格式

數據標籤及編碼處理等

分析方法數據格式

數據異常或無效處理

數據基本特徵探索

其它


 

正在經歷畢業論文季的各位還好嗎?無數學長學姐的經驗證明,學校裏那幾節數據分析課,完全不夠應付畢業論文的需要。面對滿屏收集而來的數據,我們還是無從下手。

 

每天有越來越多的同學向SPSSAU諮詢:論文應該怎麼分析好,收集好了數據,但完全沒有思路?

 

今天,SPSSAU給大家帶來[數據分析思維培養]系列課程。主要針對第一次接觸數據分析,完全不懂分析的小白用戶,或者懂一些簡單方法但苦於沒有分析思路,不知道如何規範化分析。

 

本文章爲SPSSAU數據分析思維培養的第一篇文章。

 


 

想要進行科學的數據分析,正確的數據格式,以及正常的數據是最基本的。而且數據的準備和數據的理解,正是科學的數據分析思維必備條件之一。

 

想要準備好自己的數據,需要從以下六個方面進行處理:

  • 第1點,需要準備好正確的數據格式

  • 第2點,對數據的基本處理,包括數據標籤、數據編碼和生成變量等

  • 第3點,一些分析方法需要的數據特殊格式準備

  • 第4點,數據異常值,或者無效樣本數據的處理

  • 第5點,數據基本特徵探索

  • 第6點,是一些其它注意事項

 

 

數據格式

 

在進行數據分析前,數據的準備是第一點,不論是使用數據庫下載的數據,或者實驗數據,也或者問卷調查數據,手工錄入數據等。不論是直接從系統下載的原始數據,還是自己手工錄入的數據,均需要按照數據分析思維的規範格式進行,否則任何軟件都無法分析。

 

但通常情況下,很多人都會忽略此步驟,認識有了數據馬上就可以分析,其實不然,準備數據和數據的基本處理也屬於數據分析的範疇,而且正常情況下數據處理花的時間佔比會超過50%,也即是說想完成一項分析,其實有超過50%的時間(多數情況下會是70%左右)都是在準備數據上。

 

接下來以例子說明下什麼是正確的數據格式,首先看下常見的錯誤數據格式例子如下圖:

 

 

上圖爲是最爲常見的一種錯誤數據格式,手工錄入到EXCEL裏面的時候,非常的隨意,想如何就如何。但一旦想進行分析的時候就會出錯,那是由於EXCEL是表格軟件,而不是數據分析軟件,所以隨意的格式都可以。

 

上圖中出現了5個常見的問題,分別是:

第1:出現合併單元格,A1和A2這兩個單元格合併,在分析的時候軟件就不知道名字應該叫什麼,所以直接無法上傳到軟件中;

第2:C1這個單元格本身是標識體重信息,但直接爲空,分析軟件可不知道空就是‘體重’的意思,這是非常明顯的錯誤;

第3:A列裏面爲性別,但是數據非常不規範,男,男性,MALE這三個詞語都是男,但是分析軟件會認爲這是3個不同的名詞,這也可以很好的解釋爲什麼‘填空題’這種雜亂無章的數據通常是無法分析的原因;

第4:B8這個格子裏面爲‘平均爲175’,這是錯誤的。原因在於B列是標識身高信息,而不是平均身高信息,如果需要得到平均身高,讓分析軟件幫你計算就好;

第5:C7這個格式爲‘無數據’,其實就是缺失數據,直接空着就好,否則分析軟件會認爲‘無數據’是一個數據信息。

 

上述已經列出常見的錯誤特徵,接下來說明正確的數據格式如下:

 

 

規範的數據格式(可用於數據分析)應該是這樣,第1行爲‘標題’即具體名字,第2行起爲具體的數據,且不能有合併單元格的情況,如果爲空值即缺失值,直接不錄入就好。並且數據信息需要規範,比如男,男性,MALE這三個詞語都應該規範成‘男’。

 

任何的分析軟件都應該提供規範的數據格式才能分析,以SPSSAU爲例,其支持的數據格式說明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三種類型),SAV(SPSS格式等),使用SPSSAU右上角‘我的數據’上傳數據後即成功導入了數據。

 

需要特別說明的一點是:數據分析軟件事實上只認識數字,比如上例中的‘男’,‘女’,軟件是不認識的,那麼軟件如何處理呢。它會自動把‘男’或‘女’用數字1或2進行表示,然後打上數字的標籤,分析出來後數字1的時候就會顯示成‘男’,數字2就會顯示成‘女’。任何的機器原理上都只認識數字而不認識文字,全部都是將文字‘數字化’處理。因此接下來會進行一些數字標籤,以及數據基本處理的說明。

 

除此之外還需要說明一點是:如果有多份數據,這是需要自己合併整理在一個EXCEL工作表裏面纔可以,分析軟件是無法知道多份數據分別代表什麼意思,需要自己手工將數據合併整理在一個工作表裏面後才能進一步分析。

 

數據標籤及編碼處理等

 

上一點已經說明正確的數據之後,接下來說明下數據的基本處理,包括數據標籤、數據編碼和生成變量。關於數據處理相關的操作,SPSSAU截圖如下:

 

 

完成正確的數據上傳後,那麼數字代表的意義是什麼呢?比如數字1表示男,數字2表示女,這需要告訴軟件纔可以,這即是數據標籤的功能,SPSSAU操作如下:

 

 

除了數據標籤外,有時候還可能需要進行數據編碼處理,比如希望對年齡分成3個組別,分別是20以下,20~30,30以上。此時就需要使用數據編碼處理,如下圖:

 

 

上圖中顯示,將0~20歲編碼成數字1;20~30編碼成數字2;30到100編碼成數字3;當然至於數字1,2,3分別代表的意義,只有分析人員自己才知道,所以一般還需要使用數據標籤功能去標識出數字1,2,3代表的意義。

 

 

很多時候還需要對數據生成變量處理,比如說對體重或者身高求對數處理,或者對數據開根號,取絕對值,求和,求平均值處理等,那麼可使用SPSSAU生成變量功能。

 

SPSSAU提供大約30類數據處理的功能基本上可以滿足所有人的需求。當然有時候還需要更多的處理,可使用‘高級公式’自己輸入公式處理即可。

 

在完成數據編碼,生成變量之後,有可能會想對‘標題名稱’修改或者刪除掉多餘項,此時可使用SPSSAU‘標題處理’功能即可。

 

分析方法數據格式

 

在完成正確的數據上傳及數據處理後,通常就可以開始進行正常的分析了,絕大多數的分析都可以完成。

 

但有的時候,個別研究方法對於數據格式是有特殊要求的,所以還需要按照其特徵的數據格式要求進行準備數據:比如卡方檢驗時有時提供的是‘加權’數據格式,kappa一致性檢驗,模糊綜合評價分析方法等特別分析方法時,對於數據的格式有特殊的要求,建議可直接查看SPSSAU幫助手冊裏面的案例數據格式,當然也可以直接使用SPSSAU的案例數據裏面的格式模仿參考進行即可。

 

具體可在此頁面查看SPSSAU的案例數據格式:

https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html

 

數據異常或無效處理

 

對於上傳後的數據,有時候會出現異常情況,比如正常男性成年人的身高是介於1.5~2米之間,但是如果出現一個數據爲1.2米,那這種異常數據在分析之前是需要進行處理纔可以,一般情況下是把該值直接設置成null值。SPSSAU操作如下:

 

 

也有的時候會對數據標識爲無效樣本,比如一份關於淘寶購物滿意度的問卷,填寫者全部都填寫完全相同的答案,說明該樣本沒有認真填寫,此時可將該樣本設置爲無效樣本,SPSSAU操作如下圖(將相同數字大於70%設置成無效樣本):

 

 

數據基本特徵探索

 

通常在分析前,還需要首先探索下數據的特徵,看下數據是否有異常情況,大概看下數據的特徵情況等,便於做到心中有數,比如正常男性成年人身高是介於1.5~2米之間,但數據中有沒有異常值呢,通常可使用描述分析大概看下就好。如下圖中最小值是1.69米,最大是1.82米,都是正常數據。

 

 

當然還可以查看一些更深入的數據指標,比如百分位數等,如下圖:

 

 

另外也可以使用箱線圖、或者散點圖等看下是否有異常數據,SPSSAU可視化裏面均有提供。

 

其它

 

數據的準備和清理是進行數據分析的第一步,而且正常情況下,此步驟佔用了數據分析超過50%(大部分情況下是70%)的時間,但此步驟非常容易被普通用戶忽略。

 

完成數據準備和基本的清理,數據異常,數據無效,以及數據特徵探索之後,才能開始進入下一步,即正常的數據分析。否則後面分析發現有着異常數據或者無效數據,也或者錯誤的數據,那麼中間所有的分析都會白費。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章