【乾貨】統計學最常用的「數據分析方法」清單（上）

描述統計

描述統計是通過圖表或數學方法，對數據資料進行整理、分析，並對數據的分佈狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分爲集中趨勢分析和離中趨勢分析和相關分析三大部分。

1. 集中趨勢分析

集中趨勢分析主要靠平均數、中數、衆數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少？是正偏分佈還是負偏分佈？

2. 離中趨勢分析

離中趨勢分析主要靠全距、四分差、平均差、方差（協方差：用來度量兩個隨機變量關係的統計量）、標準差等統計指標來研究數據的離中趨勢。例如，我們想知道兩個教學班的語文成績中，哪個班級內的成績分佈更分散，就可以用兩個班級的四分差或百分點來比較。

3. 相關分析

相關分析探討數據之間是否具有統計學上的關聯性。這種關係既包括兩個數據之間的單一相關關係——如年齡與個人領域空間之間的關係，也包括多個數據之間的多重相關關係——如年齡、抑鬱症發生率、個人領域空間之間的關係；既包括A大B就大(小)，A小B就小(大)的直線相關關係，也可以是複雜相關關係（A=Y-B*X）；既可以是A、B變量同時增大這種正相關關係，也可以是A變量增大時B變量減小這種負相關，還包括兩變量共同變化的緊密程度——即相關係數。

實際上，相關關係唯一不研究的數據關係，就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢？簡而言之，有了相關係數，就可以根據迴歸方程，進行A變量到B變量的估算，這就是所謂的迴歸分析，因此，相關分析是一種完整的統計研究方法，它貫穿於提出假設，數據研究，數據分析，數據研究的始終。

例如，我們想知道對監獄情景進行什麼改造，可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風時間、探視時間進行排列組合，然後讓每個囚室一種實驗處理，然後用因素分析法找出與囚徒暴力傾向的相關係數最高的因素。假定這一因素爲囚室人口密度，我們又要將被試隨機分入不同人口密度的十幾個囚室中生活，繼而得到人口密度和暴力傾向兩組變量（即我們討論過的A、B兩列變量）。然後，我們將人口密度排入X軸，將暴力傾向分排入Y軸，獲得了一個很有價值的圖表，當某典獄長想知道，某囚舍擴建到N人/間囚室，暴力傾向能降低多少。我們可以當前人口密度和改建後人口密度帶入相應的迴歸方程，算出擴建前的預期暴力傾向和擴建後的預期暴力傾向，兩數據之差即典獄長想知道的結果。

4. 推論統計

推論統計是統計學乃至於心理統計學中較爲年輕的一部分內容。它以統計結果爲依據，來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分佈的差異，來估算樣本與總體、同一樣本的前後測成績差異，樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。

例如，我們想研究教育背景是否會影響人的智力測驗成績。可以找100名24歲大學畢業生和100名24歲初中畢業生。採集他們的一些智力測驗成績。用推論統計方法進行數據處理，最後會得出類似這樣兒的結論：“研究發現，大學畢業生組的成績顯著高於初中畢業生組的成績，二者在0.01水平上具有顯著性差異，說明大學畢業生的一些智力測驗成績優於中學畢業生組。”

5. 正態性檢驗

很多統計方法都要求數值服從或近似服從正態分佈，所以之前需要進行正態性檢驗。

常用方法：非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。

假設檢驗&參數檢驗

參數檢驗是在已知總體分佈的條件下（一股要求總體服從正態分佈）對一些主要的參數(如均值、百分數、方差、相關係數等）進行的檢驗。

【U驗】使用條件：當樣本含量n較大時，樣本值符合正態分佈
【T檢驗】使用條件：當樣本含量n較小時，樣本值符合正態分佈

單樣本t檢驗：推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常爲理論值或標準值)有無差別
配對樣本t檢驗：當總體均數未知時，且兩個樣本可以配對，同對中的兩者在可能會影響處理效果的各種條件方面扱爲相似
兩獨立樣本t檢驗：無法找到在各方面極爲相似的兩樣本作配對比較時使用

非參數檢驗：

非參數檢驗則不考慮總體分佈是否已知，常常也不是針對總體參數，而是針對總體的某些一股性假設（如總體分佈的位罝是否相同，總體分佈是否正態）進行檢驗。

適用情況：順序類型的數據資料，這類數據的分佈形態一般是未知的。A 雖然是連續數據，但總體分佈形態未知或者非正態；B 體分佈雖然正態，數據也是連續類型，但樣本容量極小，如10以下

主要方法包括：卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。

信度分析信度（Reliability）

即可靠性，它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。信度指標多以相關係數表示，大致可分爲三類：穩定係數（跨時間的一致性），等值係數（跨形式的一致性）和內在一致性係數（跨項目的一致性）。信度分析的方法主要有以下四種：重測信度法、複本信度法、折半信度法、α信度係數法。

方法如下：

1. 重測信度法編輯

這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測，計算兩次施測結果的相關係數。顯然，重測信度屬於穩定係數。重測信度法特別適用於事實式問卷，如性別、出生年月等在兩次施測中不應有任何差異，大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變，這種方法也適用於態度、意見式問卷。由於重測信度法需要對同一樣本試測兩次，被調查者容易受到各種事件、活動和他人的影響，而且間隔時間長短也有一定限制，因此在實施中有一定困難。

2. 複本信度法編輯

讓同一組被調查者一次填答兩份問卷複本，計算兩個複本的相關係數。複本信度屬於等值係數。複本信度法要求兩個複本除表述方式不同外，在內容、格式、難度和對應題項的提問方向等方面要完全一致，而在實際調查中，很難使調查問卷達到這種要求，因此採用這種方法者較少。

3. 折半信度法編輯

折半信度法是將調查項目分爲兩半，計算兩半得分的相關係數，進而估計整個量表的信度。折半信度屬於內在一致性係數，測量的是兩半題項得分間的一致性。這種方法一般不適用於事實式問卷（如年齡與性別無法相比），常用於態度、意見式問卷的信度分析。

在問卷調查中，態度測量最常見的形式是5級李克特（Likert）量表（李克特量表(Likert scale)是屬評分加總式量表最常用的一種，屬同一構唸的這些項目是用加總方式來計分，單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成，每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答，分別記爲5、4、3、2、1，每個被調查者的態度總分就是他對各道題的回答所得分數的加總，這一總分可說明他的態度強弱或他在這一量表上的不同狀態。）。進行折半信度分析時，如果量表中含有反意題項，應先將反意題項的得分作逆向處理，以保證各題項得分方向的一致性，然後將全部題項按奇偶或前後分爲儘可能相等的兩半，計算二者的相關係數（rhh，即半個量表的信度係數），最後用斯皮爾曼-布朗（Spearman-Brown）公式：求出整個量表的信度係數（ru）。

4. α信度係數法

α信度係數是目前最常用的信度係數，其公式爲：α=(k/(k-1))*(1-(∑Si^2)/ST^2)。其中，K爲量表中題項的總數， Si^2爲第i題得分的題內方差， ST^2爲全部題項總得分的方差。從公式中可以看出，α係數評價的是量表中各題項得分間的一致性，屬於內在一致性係數。這種方法適用於態度、意見式問卷（量表）的信度分析。

總量表的信度係數最好在0.8以上，0.7-0.8之間可以接受；分量表的信度係數最好在0.7以上，0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。用於檢査測量的可信度，例如調查問卷的真實性。

分類有2種：

外在信度：不同時間測量時量表的一致性程度，常用方法重測信度
內在信度：每個量表是否測量到單一的概念，同時組成兩表的內在體項一致性如何，常用方法分半信度

列聯表分析

列聯表是觀測數據按兩個或更多屬性（定性變量）分類時所列出的頻數表。

1. 簡介

若總體中的個體可按兩個屬性A、B分類，A有r個等級A1,A2,…，Ar，B有c個等級B1,B2,…，Bc,從總體中抽取大小爲n的樣本，設其中有nij個個體的屬性屬於等級Ai和Bj，nij稱爲頻數，將r×c個nij排列爲一個r行c列的二維列聯表，簡稱r×c表。若所考慮的屬性多於兩個，也可按類似的方式作出列聯表，稱爲多維列聯表。

列聯表又稱交互分類表，所謂交互分類，是指同時依據兩個變量的值，將所研究的個案分類。交互分類的目的是將兩變量分組，然後比較各組的分佈狀況，以尋找變量間的關係。用於分析離散變量或定型變量之間是否存在相關。列聯表分析的基本問題是，判明所考察的各屬性之間有無關聯，即是否獨立。

如在前例中，問題是：一個人是否色盲與其性別是否有關？在r×с表中，若以pi、pj和pij分別表示總體中的個體屬於等級Ai，屬於等級Bj和同時屬於Ai、Bj的概率（pi，pj稱邊緣概率，pij稱格概率）,“A、B兩屬性無關聯”的假設可以表述爲H0：pij=pi·pj，(i=1，2，…，r；j=1,2,…，с)，未知參數pij、pi、pj的最大似然估計（見點估計）分別爲行和及列和（統稱邊緣和）爲樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗（見假設檢驗）,當h0成立，且一切pi>0和pj>0時，統計量的漸近分佈是自由度爲(r－1)(с－1) 的Ⅹ分佈，式中Eij=(ni·nj)/n稱爲期望頻數。當n足夠大，且表中各格的Eij都不太小時，可以據此對h0作檢驗：若Ⅹ值足夠大，就拒絕假設h0，即認爲A與B有關聯。在前面的色覺問題中，曾按此檢驗，判定出性別與色覺之間存在某種關聯。

2. 注意點

若樣本大小n不很大,則上述基於漸近分佈的方法就不適用。對此，在四格表情形，R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下，根據超幾何分佈（見概率分佈），可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列，以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加，若所得結果小於給定的顯著性水平，則判定所考慮的兩個屬性存在關聯，從而拒絕h0。

對於二維表，可進行卡方檢驗，對於三維表，可作Mentel-Hanszel分層分析。列聯表分析還包括配對計數資料的卡方檢驗、行列均爲順序變量的相關檢驗。

相關分析

研究現象之間是否存在某種依存關係，對具體有依存關係的現象探討相關方向及相關程度。

1. 單相關

兩個因素之間的相關關係叫單相關，即研究時只涉及一個自變量和一個因變量

2. 複相關

三個或三個以上因素的相關關係叫複相關，即研究時涉及兩個或兩個以上的自變量和因變量相關

3. 偏相關

在某一現象與多種現象相關的場合，當假定其他變量不變時，其中兩個變量之間的相關關係稱爲偏相關。

方差分析

使用條件：各樣本須是相互獨立的隨機樣本；各樣本來自正態分佈總體；各總體方差相等。有以下幾種分類：

單因素方差分析：一項試驗只有一個影響因素，或者存在多個影響因素時，只分析一個因素與響應變量的關係

多因素有交互方差分析：一頊實驗有多個影響因素，分析多個影響因素與響應變量的關係，同時考慮多個影響因素之間的關係

多因素無交互方差分析：分析多個影響因素與響應變量的關係，但是影響因素之間沒有影響關係或忽略影響關係

協方差分析：傳統的方差分析存在明顯的弊端，無法控制分析中存在的某些隨機因素，使之影響了分析結果的準確度。協方差分析主要是在排除了協變量的影響後再對修正後的主效應進行方差分析，是將線性迴歸與方差分析結合起來的一種分析方法

迴歸分析

1. 一元線性迴歸分析

只有一個自變量X與因變量Y有關，X與Y都必須是連續型變量，因變量y或其殘差必須服從正態分佈。

2. 多元線性迴歸分析

使用條件：分析多個自變量與因變量Y的關係，X與Y都必須是連續型變量，因變量y或其殘差必須服從正態分佈。

變呈篩選方式選擇最優迴歸方程的變裏篩選法包括全橫型法（CP法）、逐步迴歸法，向前引入法和向後剔除法

橫型診斷方法：

殘差檢驗：觀測值與估計值的差值要艱從正態分佈
強影響點判斷：尋找方式一般分爲標準誤差法、Mahalanobis距離法

共線性診斷方式：容忍度、方差擴大因子法(又稱膨脹係數VIF)、特徵根判定法、條件指針CI、方差比例

處理方法：增加樣本容量或選取另外的迴歸如主成分迴歸、嶺迴歸等

3. Logistic迴歸分析

線性迴歸模型要求因變量是連續的正態分佈變裏，且自變量和因變量呈線性關係，而Logistic迴歸模型對因變量的分佈沒有要求，一般用於因變量是離散時的情況。

分類：

Logistic迴歸模型有條件與非條件之分，條件Logistic迴歸模型和非條件Logistic迴歸模型的區別在於參數的估計是否用到了條件概率。

4. 其他迴歸方法

非線性迴歸、有序迴歸、Probit迴歸、加權迴歸等

聚類分析

聚類與分類的不同在於，聚類所要求劃分的類是未知的。聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數據出發，自動進行分類。聚類分析所使用方法的不同，常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析，所得到的聚類數未必一致。

從實際應用的角度看，聚類分析是數據挖掘的主要任務之一。而且聚類能夠作爲一個獨立的工具獲得數據的分佈狀況，觀察每一簇數據的特徵，集中對特定的聚簇集合作進一步地分析。聚類分析還可以作爲其他算法（如分類和定性歸納算法）的預處理步驟。

1. 定義

依據研究對象（樣品或指標）的特徵，對其進行分類的方法，減少研究對象的數目。

各類事物缺乏可靠的歷史資料，無法確定共有多少類別，目的是將性質相近事物歸入一類。各指標之間具有一定的相關關係。變量類型：定類變量、定量（離散和連續）變量。

樣本個體或指標變量按其具有的特性進行分類，尋找合理的度量事物相似性的統計量。

2. 性質分類

Q型聚類分析：對樣本進行分類處理，又稱樣本聚類分析使用距離係數作爲統計量衡量相似度，如歐式距離、極端距離、絕對距離等。
R型聚類分析：對指標進行分類處理，又稱指標聚類分析使用相似係數作爲統計量衡量相似度，相關係數、列聯繫數等。

3. 方法分類

系統聚類法：適用於小樣本的樣本聚類或指標聚類，一般用系統聚類法來聚類指標，又稱分層聚類
逐步聚類法：適用於大樣本的樣本聚類
其他聚類法：兩步聚類、K均值聚類等

End.
來源：知乎
作者：阿平
本文爲轉載分享，如有侵權請聯繫後臺刪除

【乾貨】統計學最常用的「數據分析方法」清單（上）

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

你覺得Python慢，那爲啥還有大公司一直在用呢？

整理一份可以讓 Python 變得更快的工具清單

我用pandas製作股票數據分析工具！!

數據分析的層次級別，看看你屬於哪一檔？

數據人必看！微信又添新功能！這個微信羣可以學英語，而且全程免費

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結