【在線SPSS】數據分析思維培養系列2：分析方法

在上篇文章中，我們一起學習瞭如何掌握正確的數據處理思維（文章鏈接：https://mp.csdn.net/console/editor/html/105509361）。在完成數據準備和清理工作後，就要進入到正式分析階段，而選擇什麼樣的數據分析方法進行分析是關鍵。

本文爲SPSSAU數據分析思維培養的第2篇文章，將分別從數據類型談起，剖析數據應該如何分析，包括數據的基礎描述，數據質量的判斷。除此之外，還進行差異關係，影響關係涉及的分析方法解析，最後針對更深入的影響關係進行說明。

希望通過本文幫助大家更快地掌握數學分析的思維，使用正確和科學的分析方法，完成科學的研究報告。

第1點，數據類型

進行數據分析的第一個思維，數據類型的識別。數據一般分成兩類，定類和定量，如下：

如果數據是類別，比如性別，或者醫學上的陽性陰性，數字1表示男2表示女；也或者數字1表示陽性0表示陰性。數字的大小是不能進行PK對比，而只能代表類別，此類數據SPSSAU稱爲‘定類數據’（也稱分類數據，定性數據等）。

還有一類數據比如身高體重年齡，數字的大小具有實際意義可以對比大小，數字越大身高越高，體重越重，年齡越大，此類數據SPSSAU稱爲‘定量數據’（也稱連續數據）。

還有一種數據即像定類數據，也像定量數據。比如學歷分成4組，分別是大專以下，大專，本科，本科以上，分別使用數字1，2，3，4標識。我們可以把其看成是四個類別，也可以看成是數字越大學歷越高。針對此種數據在具體分析的時候需要看實際情況，一般來說把它看成定類數據更方便分析，那就看成是定類數據；如果把它看成定量數據更方便，那就看成是定量數據。

定類和定量數據的最大區別在於：定類數據一般是看頻數百分比，定量數據一般是看平均值；而且分析上定類數據一般只能看差異性，定量數據一般是看影響關係。接下來的內容中會更加理解這種思維上的區別。

第2點，基礎描述

上述第1點已經說明了數據類型的鑑別方法，那麼針對定類數據來講，一般就是使用頻數分析，查看選擇頻數和百分比；如果是定量數據一般就使用描述分析，查看平均值和中位數等。此兩項分析均可在SPSSAU通用方法裏面輕鬆地找到。

頻數、描述分析-SPSSAU

得到一份數據後，通常第一步就是查看數據情況，分別對定類和定量數據做下簡要的分析，以便對於數據基本特徵有個大概的瞭解，同時可查到數據是否具有異常值情況等。比如對身高做描述分析發現最小值爲負數。

如果數據中有發現異常值，此時需要及時的進行處理，如果有異常數據但沒有處理，這種情況會導致後續的分析完全無用，因爲異常數據對於分析的影響巨大。SPSSAU數據處理裏面有異常值功能，同時生成變量也提供比如Winsor處理等。

異常值處理-SPSSAU

第3點，數據質量

除了對數據基礎情況有所瞭解外，還需要分析下數據的質量情況，如果數據中有量表，那麼信度分析和效度分析最好不過。效度分析時可使用EFA和CFA，即探索性因子和驗證性因子分析方法進行。信度或者效度分析等都是針對量表問卷一類的數據。

信度、效度分析-SPSSAU

如果是實驗數據，也或者專家打分數據等，此類數據不能做問卷式的信度和效度分析，但是可用於評定數據的一致性情況等，當然也是用於驗證數據的有效可靠性等。此時可使用相關的方法比如ICC組內相關係數，Kappa係數，Kendall係數，也或者使用相關係數方法等，具體一致性檢驗方法的區別和使用情況，建議查看SPSSAU手冊，醫學/實驗研究方法裏面均有提供對應的研究方法。

第4點，差異關係

上述已經提及數據的類型，數據質量判斷，當所有數據都準備完善，去除掉無效樣本，異常值之後，數據質量也達標後。那麼進入正式的分析就顯得順其自然。什麼是差異關係呢，接下來舉例說明：

如果是定類數據的差異性，那麼可使用卡方擬合優度檢驗。比如想研究陽性和陰性這兩個組別的樣本比例是否有差異性。如果是研究2個定類數據的差異性，則需要使用卡方檢驗，SPSSAU有兩個按鈕均可進行卡方檢驗，包括通用方法裏面的交叉卡方和醫學研究裏面的卡方檢驗，區別在於後者可提供更多深入指標以及支持加權數據格式。

如果是定量數據的差異性，比如想研究樣本羣體平均身高是否等於1.8，一般是使用單樣本T檢驗，但如果身高數據並不符合正態性時，此時可使用單樣本Wilcoxon檢驗。

如果是研究定類和定量數據的差異性，比如想研究不同性別羣體的體重上是否有明顯的差異性，那麼方差分析或T檢驗均可，區別在於方差可對比多重（比如東北、西南、東南三個地區的差異），而T檢驗只對比兩組（比如男和女）的差異性。除此之外，如果這裏體重這個數據嚴重的不正態時，最好使用非參數檢驗進行，SPSSAU通用方法裏面有提供此方法。

如果是配對實驗數據，比如實驗前患病狀態（陽性和陰性），與實驗後患病狀態（陽性和陰性）的差異對比，明顯的是實驗數據且爲定類數據差異對比，此時需要使用配對卡方。如果是實驗前成績和實驗後成績的對比，那麼是實驗數據且定量數據差異對比，此時使用配對T檢驗較多，當然如果說成績這個定量數據嚴重的不正態，此時使用配對Wilcoxon檢驗也許更優。

特別提示一點，實驗數據是指‘實驗前和實驗後’，也或者‘同一個樣本分別測量兩次’這種情況。常見的實驗組和對照組數據並不是絕對的實驗數據，對比差異時一般是使用普通的T檢驗，而不是配對T檢驗。

除此之外，有時候實驗數據的對比，比如同一個病例進行3次測量，測量1、測量2、測量3的對比差異性，此時可使用比如Friedman檢驗等。

關於差異關係的方法區別可查看SPSSAU之前的文章：方差分析、T檢驗、卡方分析如何區分

第5點，影響關係

上述講完差異關係，差異係數研究時，基本上都會有定類數據。因爲定類數據是不同的類別，不同類別間只能說類別A和類別B是否有明顯的不一樣，也就是差異性。定量數據能說越怎麼樣越怎麼樣，比如身高越高體重越重。因此定量數據更容易進行影響關係，即帶‘迴歸’二字的影響關係研究。

影響關係是研究X影響Y；如果Y是定量數據，那麼一般是使用線性迴歸；線性迴歸的使用頻率最高而且深入最高，其延遲出來還有比如分層線性迴歸、逐步迴歸等等，其實質上就是線性迴歸，只是另外一種變形（爲了解決特定問題而產生）而已。

如果Y是定類數據，那麼就應該使用Logit迴歸等。Logit迴歸還可分爲3類，如果Y是二分類（比如是和否），那麼就叫二元Logit迴歸；如果Y是多個類別，那麼就叫多分類Logit迴歸。如果說Y是定類數據（但同時又可看成是定量數據）,那麼可使用有序多分類Logit迴歸。

除此之外，如果研究的迴歸影響關係是曲線的，比如二次曲線，三次曲線等，那麼就可以使用曲線迴歸。

針對X對於Y的研究上，一般情況下是多個X對於1個Y的影響；如果是研究多個X對於多個Y的影響，那麼可選的方法包括PLS迴歸、典型相關等。可以參考文章：19種迴歸分析你知道幾種呢？

第6點，深入影響關係

除上一部分的影響關係研究外，還有更深入的影響關係拓展。比如心理學、管理學上的調節作用或中介作用研究等，其實質上就是線性迴歸的昇華和拓展，它們是分析方法的實質應用，比如調節作用和中介作用，一般就是使用分層線性迴歸進行驗證。

當然當前還有更深入的研究，比如多個X和多個Y之間的影響關係情況研究，可使用路徑模型，結構方程模型等進行深入分析。否則的話就需要重複進行多次線性迴歸分析。

路徑分析、結構方程模型-SPSSAU

除此之外，當前還有一些更深入的影響關係研究，比如面板迴歸模型，嶺迴歸等，其實質上依舊是影響關係研究。但區別在於比如面板迴歸模型，它是特定對於面板數據進行的迴歸影響關係研究。嶺迴歸是特定解決數據的共線性問題共誕生的研究方法而已，全部在SPSSAU平臺裏面均能找到。

總結

數據分析思維的培訓上，最關鍵的是數據類型的區別，接着針對數據的清理（即通過基礎描述和數據質量的分析），並且區分數據類型後，採用差異研究和影響關係，也或者更深入的影響關係研究，最終爲實際研究服務。

一文無法全部概括所有的研究，希望對數據分析思維有所引導。比如數據其實還有其它的研究，包括數據濃縮（主成分或因子分析）、數據聚類（Kmeans聚類、分層聚類）等等，在後續的文章中均會單獨進行說明。

【在線SPSS】數據分析思維培養系列2：分析方法

第1點，數據類型

第2點，基礎描述

第3點，數據質量

第4點，差異關係

第5點，影響關係

第6點，深入影響關係

總結

怎樣種蘋果收成好？——迴歸分析幫你找到答案

北門外的小喫街纔是我的大學食堂

數據不符合正態分佈怎麼處理呢

如何正確整理你的數據格式？

簡單易懂！一文理清主成分分析思路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結