簡單理解t檢驗與秩和檢驗

t-檢驗

選用t-檢驗的基本前提假設是,兩組樣本都服從正態分佈,且方差相同。設有兩類(x, y)分別有mm個和nn個樣本,它們的總體樣本方差是:
sp2=(n1)Sx2+(m1)Sy2m+n2s_p^2=\frac{(n-1)S_x^2+(m-1)S_y^2}{m+n-2}
其中,Sx2S_x^2Sy2S_y^2分別是兩類樣本各自的估計方差,t檢驗的統計量是:
t=xˉyˉsp1n+1mt=\frac{\bar{x}-\bar{y}}{s_p\sqrt{\frac{1}{n}+\frac{1}{m}}}
它服從自由度爲n+m2n+m-2的t分佈。
在實際問題中,首先計算出實際樣本的t值,然後根據t分佈可以查出在原假設下取得該t值的pp值,最後根據適當的顯著性水平(如0.05)來決定是否拒絕原假設,推斷兩類樣本的均值是否有顯著差異。

tt檢驗屬於參數化檢驗方法,此類方法對數據分佈有一定的假設,必要時需要首先檢驗樣本分佈是否符合該假設。

秩和檢驗

Wilcoxon秩和檢驗(rank-sum test),有時也叫Mann-Whitney U檢驗,是另一類非參數檢驗方法,它們不對數據分佈作特殊假設,因而能適用於更復雜的數據分佈情況。而當數據實際上滿足正態分佈時,用tt檢驗更有效。
秩和檢驗的做法是,首先將兩類樣本混合在一起,對所有樣本按照所考察的特徵從小到大排序。在兩類樣本中分別計算所得排序序號之和T1T_1T2T_2,稱作秩和。兩類的樣本數分別是n1n_1個和n2n_2。秩和檢驗的基本思想是,如果一類樣本的秩和顯著地比另一類小(或大),則兩類樣本在所考察的特徵上有顯著差異。秩和檢驗的統計量就是某一類(如第一類,秩和爲T1T_1)的秩和
爲了比較兩類樣本的秩和是否差異顯著,需要比較T分佈,當樣本數目較大時,人們可以用正態分佈來近似秩和T1T_1的分佈。其中
μ1=n1(n1+n2+1)2σ1=n1n2(n1+n2+1)12\mu_1=\frac{n_1(n_1+n_2+1)}{2}, \sigma_1=\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}

tt檢驗相比,秩和檢驗沒有對樣本分佈作任何假設,適用於更廣泛的情況。另外,tt檢驗的目的是檢驗兩類樣本的均值是否有系統差異,而秩和檢驗不但受兩類分佈的均值的影響,也受到分佈形狀的影響。

:如無特殊說明,以上大部分內容爲摘選自張學工所著《模式識別》。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章