使用非參數統計檢驗進行分析的指南

1980年代末，漢斯拉伊大學(Hansraj College)經濟學榮譽畢業生的平均薪酬約爲每年100萬印度盧比。這一數字大大高於80年代初或90年代初畢業的人們。

他們平均水平如此之高的原因是什麼呢？沙魯克·汗是印度收入最高的名人之一，1988年畢業於漢薩拉吉學院，當時他在那裏攻讀經濟學榮譽學位。

這一點，以及還有很多的例子都會告訴我們，平均值並不是很好的可以指示出數據的中心在哪裏。它可能會受到異常值的影響。在這種情況下，查看中位數是更好的選擇。它是一個很好的數據中心的指示器，因爲一半數據位於中間值以下，另一半位於中間值上方。

到目前爲止，一切都很好——我相信你已經看到人們早些時候提出了這一點。問題是沒有人告訴你如何進行像假設檢驗這樣的分析。

統計檢驗用於制定決策。爲了使用中位數進行分析，我們需要使用非參數檢驗。非參數測試是分佈獨立的檢驗，而參數檢驗假設數據是正態分佈的。說參數檢驗比非參數檢驗更加的臭名昭著是沒有錯的，但是前者沒有考慮中位數，而後者則使用中位數來進行分析。

接下來我們就進入非參數檢驗的內容。

**注意：**本文假定你具有假設檢驗，參數檢驗，單尾檢驗和雙尾檢驗的先決知識。

1.非參數測試與參數測試有何不同？

當總體參數的信息完全已知時使用參數檢驗，而當總體參數的信息沒有或很少使用非參數檢驗，簡單的說，參數檢驗假設數據是正態分佈的。然而，非參數檢驗對數據沒有任何分佈。

但是參數是什麼？參數不過是無法更改的總體特徵。讓我們看一個例子來更好地理解這一點。

一位老師使用以下公式計算了班級學生的平均成績：

看上面給出的公式，老師在計算總分時已經考慮了所有學生的分數。假設學生的分數是準確的，並且沒有遺漏的分數，你是否可以更改學生的總分數？並不可以。因此，平均分被稱爲總體的一個參數，因爲它不能被改變。

2.什麼時候可以應用非參數檢驗？

讓我們看一些例子。

1.比賽的獲勝者由名詞決定，而名次是根據越過終點線來進行排名的。現在，第一個越過終點線的人排名第一，第二個越過終點線的人排名第二，依此類推。我們不知道獲勝者是以多遠的距離擊敗了另一個人，因此區別是未知的。

2.有20人接受了一個療程的治療，並且通過調查記錄他們的症狀。遵循治療過程後，要求患者在5個類別中進行選擇。調查看起來像這樣：

現在，如果你仔細查看上述調查中的值可以發現，值是不可以擴展的，它是基於病人的經驗來判斷的。而且，評分是被分配的而不是被計算的。在這種情況下，參數檢驗無效。

對於名義數據，不存在任何參數檢驗。

3.檢測極限是值通過給定的分析方法可以檢測到的物質的最低數量，但是不一定要將其定量爲精確值。例如，病毒載量就是你血液中的HIV含量。病毒載量可以超出檢測極限，也可以更高的數量。

4.在上面的平均薪酬方案的例子中，沙魯克的收入是一個離羣值。什麼是離羣值？沙魯克的收入與其他經濟學專業畢業生的收入相距異常。因此，沙魯克的收入在這裏變得異常，因爲它與數據中的其他值之間存在異常距離。

總而言之，非參數檢驗可以應用於以下情況：

數據不遵循任何概率分佈
數據由順序值或等級構成
數據中有異常值
數據具有檢測極限

這裏要注意的一點是，如果存在一個針對問題的參數檢驗，則使用非參數檢驗將產生非常不準確的答案。

3.使用非參數檢驗的優缺點

在上面的討論中，你可能已經注意到，我提到了使用非參數測試可能有利或不利的幾點，因此現在讓我們共同來看一下這些點。

優點

使用非參數檢驗而不是參數檢驗的優點是

1.即使樣本量很小，非參數測試也可以提供準確的結果。

2.當正態性假設被違背時，非參數檢驗比參數檢驗更加有效。

3.它們適用於所有數據類型，例如標稱，序數，間隔或具有離羣值的數據。

缺點

1.如果數據進行任何參數檢驗，那麼使用非參數檢驗可能是一個可怕的錯誤。

2.非參數檢驗的臨界值表未包含在許多計算機軟件包中，因此這些測試需要更多的手工計算。

4.非參數檢驗的假設檢驗

現在你知道非參數檢驗對總體參數無所謂，因此它不對父級總體的均值、標準差等做出任何假設。這裏的零假設是一般的，因爲兩個給定的總體是相等的。

進行非參數檢驗時應遵循的步驟：

第一步是建立假設並選擇一個顯著性水平

現在，讓我們看看這兩個是什麼

假設：我的預測是Rahul會贏得比賽，另一個可能的結果是Rahul不會贏得比賽。這些都是我的假設。我的備擇假設是Rahul將贏得比賽，因爲我們將讓備擇假設等於我們想要證明的。零假設是相反的假設，通常零假設是沒有差異的陳述。例如，

零假設：H0：樣本均值與總體均值之間沒有顯著性差異

備擇假設：H1：樣本均值與總體均值之間存在顯著性差異

顯著性水平： 它是做出錯誤決定的可能性。在上述假設陳述中，零假設表示樣本和總體均值之間沒有差異。假設樣本均值和總體均值之間沒有差異時，拒絕零假設的風險爲5％。這種拒絕零假設成立的風險或可能性稱爲顯著性水平。

顯著性水平用α表示

在非參數檢驗中，根據研究的興趣，假設檢驗可以是單側或雙側。

2.設置測試統計信息

要了解什麼是統計量，讓我們看一個例子。一位老師計算了A部分學生的平均成績，例如36分，她使用A部分學生的平均成績來表示B，C和D部分學生的平均成績。這裏要注意的是，老師沒有使用學生在所有部分中獲得的總成績，而是使用了A部分的平均成績。在這裏，平均成績被稱爲統計信息，因爲老師沒有使用整個數據。

在非參數檢驗中，將觀察到的樣本轉換爲等級，然後將等級視爲檢驗統計量。

3.設定決策規則

決策規則只是告訴我們何時拒絕原假設的一個語句。

4.計算檢驗統計量

在非參數檢驗中，我們使用等級來計算檢驗統計量。

5.將檢驗統計量與決策規則進行比較

在這裏，你將接受或拒絕基於比較的零假設。

在討論非參數檢驗的類型時，我們將更深入地研究這一部分。

5.非參數測試

1.曼·惠特尼U檢驗（Mann Whitney U test）

也稱爲曼惠特尼威爾科克森（Mann Whitney Wilcoxon）和威爾科克森秩和檢驗（Wilcoxon rank sum test），是獨立樣本t檢驗的一種替代方法。讓我們通過一個例子來理解這一點。

一個製藥組織創造了一種新的藥物來治療夢遊，一個月後對5名患者進行了觀察。另一組5人已經服用了舊藥物一個月。然後，該組織要求個人記錄上個月的夢遊病例數。結果是：

如果你看這張表，服用新藥的一個月內發生夢遊的病例比服用老藥的少。

查看下面給出的圖形。

現在，在這裏你可以看到當一個人服用新藥時，他發生夢遊的機率會降低。

理解這個問題了嗎？我們來看看Mann Whitney U測試是如何工作的。我們很想知道服用不同藥物的兩組報告的夢遊病例數是否相同。假設如下：

H0:兩組報告的病例數量相同

H1:兩組報告的病例數不同

我選擇5%的顯著性水平進行測試。下一步是設置一個測試統計信息。

對於Mann Whitney U檢驗，檢驗統計量由U 表示，U是U 1 和U 2 的最小值。

$$
其中r1爲第一組的秩和，r2爲第二組的秩和，n1爲第一組的大小，n2爲第二組的大小。

現在，我們將通過合併這兩組來計算秩。現在的問題是

如何分配秩？

秩是非參數檢驗的非常重要的組成部分，因此，學習如何爲樣本分配秩非常重要。讓我們學習如何分配秩。

1.我們將兩個樣本合併，並按升序排列。我分別對舊藥和新藥使用OD和ND來代替。

	ND	ND	ND	ND	ND	OD	OD	OD	OD	OD
樣本	1	1	2	3	4	4	7	8	8	9

此處，最小值被賦值爲1，第二個最小值被賦值爲2，依此類推。

	ND	ND	ND	ND	ND	OD	OD	OD	OD	OD
樣本	1	1	2	3	4	4	7	8	8	9
秩	1	2	3	4	5	6	7	8	9	10

但是請注意，數字1、4和8在組合樣本中出現了多次。因此分配的秩是錯誤的。

樣本中有聯繫時如何分配秩呢？

聯繫基本上是一個樣本中出現多次的數字。排序數據後，查看樣本中數字1的位置。在這裏，數字1出現在第一和第二位置。在這種情況下，我們取1和2的平均值（因爲數字1出現在第一和第二位置），並將平均值分配給數字1，如下所示。我們對數字4和8遵循相同的步驟。這裏的數字4出現在第5位和第6位上，它們的均值爲5.5，因此我們將數字5.5分配給數字4。沿這些行計算數字8的等級。

	ND	ND	ND	ND	ND	OD	OD	OD	OD	OD
樣本	1	1	2	3	4	4	7	8	8	9
秩	1.5	1.5	3	4	5.5	5.5	7	8.5	8.5	10

當樣本中存在聯繫時，我們分配平均秩，以確保每個大小爲n的樣本的秩和相同。因此，秩和將始終等於
$\frac{n(n+1)}{2}$
2.下一步是計算組1和組2的秩和。

R 1 = 15.5
R 2 = 39.5

3.使用U 1 和U 2 的公式，計算它們的值。

U 1 = 24.5
U 2 = 0.5

現在，U = min（U 1 ，U 2 ）= 0.5

注意：對於Mann Whitney U test，U的值在（0，n 1 * n 2 ）範圍內，其中0表示兩組完全不同，n 1 * n 2 表示兩組之間存在一定的關係。而且，U 1 + U 2 始終等於n 1 * n 2 。請注意，此處的U值爲0.5，非常接近0。

現在，我們使用臨界值表來確定臨界值（用p表示），該值是從檢驗的顯著性水平得出的一個點，用於拒絕或接受無效假設。在Mann Whitney U test中，檢驗標準爲

接受H0：U ≤ 臨界值

拒接H0：U > 臨界值

在這裏，p = 2

U <臨界值，因此，我們拒絕零假設，並得出結論，沒有重要證據表明兩組報告的夢遊病例數目相同。

2.威爾科克森符號秩檢驗（Wilcoxon Sign-Rank Test）

當樣本違反正態分佈假設時，就可以使用該檢驗代替配對t檢驗。

一位老師在課堂上教了一個新題，並決定在第二天進行突擊測驗。一共有6名學生接受了測試，滿分爲10分，第一次測試分數如下：

注意：假定以下數據違反了正態分佈的假設。

學生	1	2	3	4	5	6
分數	8	6	4	2	5	6

現在，老師決定在一週的自習課中再次參加考試。分數如下

學生	1	2	3	4	5	6
分數	6	8	8	9	4	10

讓我們檢查一下一週後的學生成績是否有所提高。

學生	第一次測試	第二次測試	差異（第二次分數-第一次分數）
1	8	8	-2
2	6	8	2
3	4	8	4
4	2	9	7
5	5	4	-1
6	6	10	4

在上表中，在某些情況下，學生的得分比以前低，並且在某些情況下，學生4的進步相對較高。這可能是由於隨機效應。我們將使用此測試分析差異是系統的還是偶然的。

下一步對差值的絕對值進行排序。請注意，只有在按升序排列數據後才能執行此操作。

差異	秩
-1	1
2	2.5
-2	2.5
4	4.5
4	4.5
7	6

在Wilcoxon sign-rank test中，我們需要符號秩，基本上是將與差異相關的符號分配給秩，如下所示。

差異	秩	符號秩
-1	1	-1
2	2.5	2.5
-2	2.5	-2.5
4	4.5	4.5
4	4.5	4.5
7	6	6

容易吧？那麼現在的假設是什麼？

H0：正秩和

H1：負秩和

假設可以是單側的，也可以是雙側的，我使用單側假設，使用5％的顯著性水平。因此，α=0.05

此測試的測試統計量是W在下面定義的W 1 和W 2中的較小者：

W1：正秩和

W2：負秩和

W 1 = 17.5

W 2 = 3.5

W =min（W 1 ，W 2 ）= 3.5

在這裏，如果W 1 與W 2 相似，那麼我們接受零假設。否則，在中，如果差異反映出學生得分的提高，則我們拒絕原假設。

W的臨界值可以在表中查到。

接受或拒絕零假設的標準是

接受H0：W ≤ 臨界值

拒絕H0：W＞臨界值

**在這裏，W>臨界值= 2，因此我們接受零假設並得出結論，兩個檢驗的分數之間沒有顯著差異。 **

在這裏，W>臨界值= 2，因此我們接受零假設並得出結論，兩個測試的標記之間沒有顯着差異。

3.符號檢驗（Sign Test）

該檢驗與Wilcoxon Sign-Rank Test相似，如果數據違反正態性假設，也可以用它代替配對t檢驗。我將使用在Wilcoxon Sign-Rank Test中使用的相同例子（假設它不遵循正態分佈）來解釋符號測試。

讓我們再次查看數據。

學生	第一次測試	第二次測試	差異（第二次分數-第一次分數）	符號
1	8	6	-2	-
2	6	8	2	+
3	4	8	4	+
4	2	9	7	+
5	5	4	-1	-
6	6	10	4	+

在Sign Test中，我們沒有考慮大小，因此忽略了等級。假設與以前相同。

H0：中位數差爲0

H1：中位數差爲正

在這裏，如果我們看到相同數量的正差和負差，則零假設成立。否則，如果我們看到更多的正號，則拒絕零假設。

測試統計量：此處的測試統計量小於正負號的數量。

確定臨界值，拒絕和接受原假設的標準爲：

接受H0：如果+和-的符號數量≤臨界值

拒絕H0：如果+和-的符號數量＞臨界值

在這裏，+＆–符號的較小數目= 2 <臨界值=6。因此，我們拒絕零假設，並得出結論，沒有明顯的證據表明中位數差爲零。

4.秩和檢驗（Kruskal-Wallis Test）

當你處理兩個以上的獨立羣體時，該測試是非常有用的，它可以比較k個羣體的中位數。當數據違反了正態分佈的假設並且樣本量太小時，此測試可以替代單因素方差分析。注意：Kruskal-Wallis Test可用於連續和有序級別的因變量。

讓我們看一個例子，以增強我們對Kruskal-Wallis Test的理解。

登革熱患者分爲3組，並給予三種不同類型的治療。經過3天的療程後，患者的血小板計數如下。

治療方法1	治療方法2	治療方法3
42000	67000	78000
48000	57000	89000
57000	79000	67000
69000		80000
45000

請注意，三種治療的樣本量不同，可以使用Kruskal-Wallis Test來解決。

處理1、2和3的樣本量如下：

方法1；n 1 = 5

方法2；n 2 = 3

處理3；n 3 = 4

n = n 1 + n 2 + n 3 = 5 + 3 + 4 = 12

假設在下面給出，選擇5%的顯著性水平

H0：三種方法的中位數相同

H1：三種方法的中位數不同

將這些樣本從最小到最大進行排序，然後將秩分給樣本。

回想一下，秩和將始終等於n（n + 1）/ 2。

在這裏，秩和= 78

n（n + 1）/ 2 =（12 * 13）/ 2 = 78

我們必須檢查3個總體中位數之間是否存在差異，因此我們將基於秩在檢驗統計數據中彙總樣本信息。在此，測試統計量由H表示，並由以下公式給出
$H=\left(\frac{12}{n(n+1)} \sum_{j=1}^{k} \frac{R_{j}^{2}}{n_{j}}\right)-3(n+1)$
在這裏：k=比較的組數，

n=總樣本大小，

nj=第j組的樣本量，

Rj=第j組的秩和。

下一步就是利用臨界值確定H的臨界值，測試標準如下：

接受H0：H ≥ 臨界值

拒絕H0：H＜臨界值

H的值計算出來是6.0778，臨界值爲5.656。因此，我們拒絕零假設，並得出結論，沒有重要證據表明這三個總體中位數相同。

注意：在Kruskal-Wallis Test中，如果有3個或更多獨立的比較組，每組中有5個或更多觀察值，則檢驗統計量H近似爲k-1自由度的卡方分佈。因此，在這種情況下，你可以在卡方分佈表中找到檢驗的臨界值作爲臨界值。

5.斯皮爾曼等級相關性（Spearman Rank Correlation）

假如我去市場買了一條裙子，巧合的是，我的朋友從她附近的市場上買了同一條裙子，但她爲此付出了更高的價錢。與我的朋友相比，我朋友家附近的市場更加昂貴。那麼，地區會影響商品價格嗎？如果確實如此，那麼該地區與商品價格之間便存在聯繫。我們在這裏使用斯皮爾曼等級相關性是因爲它確定兩個數據集之間是否存在相關性。

蔬菜的價格因地區而異。我們可以使用斯皮爾曼等級相關性來檢查蔬菜價格和麪積之間是否存在關係。這裏的假設是：

H0：價格與面積無關

H1：價格與面積有關

在這裏，趨勢線表明蔬菜價格與面積之間呈正相關。但是，應使用斯皮爾曼等級相關性檢查相關方向和強度。

斯皮爾曼等級相關性是皮爾遜相關係數的非參數替代，用Rs表示。Rs的取值範圍（-1,1），其中

-1代表秩之間存在負相關關係

0代表秩之間沒有相關性

1代表秩之間存在正相關性

將秩分配給樣本後，使用以下公式計算S斯皮爾曼秩相關係數。

Case 1 :當數據中沒有聯繫時
$\rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)}$
Case 2:當數據中有聯繫時
$\rho=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(\left(R\left(x_{i}\right)-R(\bar{x})\right)\left(R\left(y_{i}\right)-R(\bar{y})\right)\right)}{\sqrt{\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(x_{i}\right)-R(\bar{x})\right)^{2}\right)\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(y_{i}\right)-R(\bar{y})\right)^{2}\right)}}$
在這裏R（x）和R（y）爲秩，R（xbar）和R(ybar)爲平均秩

讓我們通過一個例子來理解這些公式的應用。下表包括學生的數學和科學的的分數。

零假設表示標記之間沒有關係，備擇假設指出標記之間有關係。選擇5%的顯著性水平進行測試

數學	56	75	45	71	62	64	58	80	76	61
科學	66	70	40	60	65	56	59	77	67	63

現在計算秩和d，d是秩和n之間的差值，而n是樣本大小=10。執行以下操作：

數學	56	75	45	71	62	64	58	80	76	61
科學	66	70	40	60	65	56	59	77	67	63
等級（M）	9	3	10	4	6	5	8	1	2	7
等級（S）	4	2	10	7	5	9	8	1	3	6
d	5	1	0	3	1	4	0	0	1	1
d平方（d-square）	25	1	0	9	1	16	0	0	1	1

現在，使用該公式計算斯皮爾曼等級相關係數。因此，斯皮爾曼等級相關性爲0.67，這表明在數學和科學測試中獲得的學生排名之間呈正相關，這意味着你在數學中的排名越高，你在科學中的排名越高，反之亦然。

你也可以通過使用顯著性水平和樣本量確定臨界值來檢查此情況。拒絕或接受零假設的標準爲：

接受H0：|rs| ≥臨界值

拒絕H0：|rs|＜臨界值

注意：此處的自由度爲n-2。

臨界值爲0.033，小於0.67因此我們拒絕零假設。

結束

當參數檢驗的假設被違反時，非參數檢驗將更強大，並且可以用於所有數據類型，例如標稱，有序，區間以及數據具有離羣值的情況。如果任何參數檢驗對問題是有效的，則使用非參數檢驗將給出非常不準確的結果。

總而言之，

Mann Whitney U Test用於檢驗兩組獨立組間的差異，分別爲有序因變量和連續因變量

Wilcoxon sign rank test用於檢驗兩個相關變量之間的差異，該差異考慮了差異的大小和方向，但是Sign檢驗忽略了大小，僅考慮了差異的方向。

Kruskal-Wallis Test通過使用中位數比較了兩個以上獨立組的結果。

Spearman Rank Correlation技術用於檢查兩個數據集之間是否存在關聯，還可以說明關聯的類型。

使用非參數統計檢驗進行分析的指南

1.非參數測試與參數測試有何不同？

2.什麼時候可以應用非參數檢驗？

3.使用非參數檢驗的優缺點

優點

缺點

4.非參數檢驗的假設檢驗

第一步是建立假設並選擇一個顯著性水平

2.設置測試統計信息

3.設定決策規則

4.計算檢驗統計量

5.將檢驗統計量與決策規則進行比較

5.非參數測試

1.曼·惠特尼U檢驗（Mann Whitney U test）

2.威爾科克森符號秩檢驗（Wilcoxon Sign-Rank Test）

3.符號檢驗（Sign Test）

4.秩和檢驗（Kruskal-Wallis Test）

5.斯皮爾曼等級相關性（Spearman Rank Correlation）

結束

應屆生面試數據分析的那些“套路”，你都知道嗎？

學習數據分析過程中那些省錢的小技巧

想做數據分析，這幾個壞習慣必須要改掉

初級業務數據分析師怎麼做職業規劃？

什麼樣的人適合做數據分析師？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結