簡單理解t檢驗與秩和檢驗

原創

2018-10-14 22:40

t-檢驗

選用t-檢驗的基本前提假設是，兩組樣本都服從正態分佈，且方差相同。設有兩類(x, y)分別有 $m$ 個和 $n$ 個樣本，它們的總體樣本方差是：
$s_p^2=\frac{(n-1)S_x^2+(m-1)S_y^2}{m+n-2}$
其中， $S_x^2$ 和 $S_y^2$ 分別是兩類樣本各自的估計方差，t檢驗的統計量是：
$t=\frac{\bar{x}-\bar{y}}{s_p\sqrt{\frac{1}{n}+\frac{1}{m}}}$
它服從自由度爲 $n+m-2$ 的t分佈。
在實際問題中，首先計算出實際樣本的t值，然後根據t分佈可以查出在原假設下取得該t值的 $p$ 值，最後根據適當的顯著性水平（如0.05）來決定是否拒絕原假設，推斷兩類樣本的均值是否有顯著差異。

$t$ 檢驗屬於參數化檢驗方法，此類方法對數據分佈有一定的假設，必要時需要首先檢驗樣本分佈是否符合該假設。

秩和檢驗

Wilcoxon秩和檢驗(rank-sum test)，有時也叫Mann-Whitney U檢驗，是另一類非參數檢驗方法，它們不對數據分佈作特殊假設，因而能適用於更復雜的數據分佈情況。而當數據實際上滿足正態分佈時，用 $t$ 檢驗更有效。
秩和檢驗的做法是，首先將兩類樣本混合在一起，對所有樣本按照所考察的特徵從小到大排序。在兩類樣本中分別計算所得排序序號之和 $T_1$ 和 $T_2$ ，稱作秩和。兩類的樣本數分別是 $n_1$ 個和 $n_2$ 。秩和檢驗的基本思想是，如果一類樣本的秩和顯著地比另一類小（或大），則兩類樣本在所考察的特徵上有顯著差異。秩和檢驗的統計量就是某一類（如第一類，秩和爲 $T_1$ ）的秩和
爲了比較兩類樣本的秩和是否差異顯著，需要比較T分佈，當樣本數目較大時，人們可以用正態分佈來近似秩和 $T_1$ 的分佈。其中
$\mu_1=\frac{n_1(n_1+n_2+1)}{2}， \sigma_1=\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}$

與 $t$ 檢驗相比，秩和檢驗沒有對樣本分佈作任何假設，適用於更廣泛的情況。另外， $t$ 檢驗的目的是檢驗兩類樣本的均值是否有系統差異，而秩和檢驗不但受兩類分佈的均值的影響，也受到分佈形狀的影響。

注：如無特殊說明，以上大部分內容爲摘選自張學工所著《模式識別》。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

簡單理解t檢驗與秩和檢驗

t-檢驗

秩和檢驗

學習筆記—診斷機器學習模型

學習筆記-機器學習系統設計

P value校正思想與實現

Python 作圖實現座標軸截斷（打斷）

幾種線性迴歸方法的簡介

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結