t-檢驗
選用t-檢驗的基本前提假設是,兩組樣本都服從正態分佈,且方差相同。設有兩類(x, y)分別有個和個樣本,它們的總體樣本方差是:
其中,和分別是兩類樣本各自的估計方差,t檢驗的統計量是:
它服從自由度爲的t分佈。
在實際問題中,首先計算出實際樣本的t值,然後根據t分佈可以查出在原假設下取得該t值的值,最後根據適當的顯著性水平(如0.05)來決定是否拒絕原假設,推斷兩類樣本的均值是否有顯著差異。
檢驗屬於參數化檢驗方法,此類方法對數據分佈有一定的假設,必要時需要首先檢驗樣本分佈是否符合該假設。
秩和檢驗
Wilcoxon秩和檢驗(rank-sum test),有時也叫Mann-Whitney U檢驗,是另一類非參數檢驗方法,它們不對數據分佈作特殊假設,因而能適用於更復雜的數據分佈情況。而當數據實際上滿足正態分佈時,用檢驗更有效。
秩和檢驗的做法是,首先將兩類樣本混合在一起,對所有樣本按照所考察的特徵從小到大排序。在兩類樣本中分別計算所得排序序號之和和,稱作秩和。兩類的樣本數分別是個和。秩和檢驗的基本思想是,如果一類樣本的秩和顯著地比另一類小(或大),則兩類樣本在所考察的特徵上有顯著差異。秩和檢驗的統計量就是某一類(如第一類,秩和爲)的秩和
爲了比較兩類樣本的秩和是否差異顯著,需要比較T分佈,當樣本數目較大時,人們可以用正態分佈來近似秩和的分佈。其中
與檢驗相比,秩和檢驗沒有對樣本分佈作任何假設,適用於更廣泛的情況。另外,檢驗的目的是檢驗兩類樣本的均值是否有系統差異,而秩和檢驗不但受兩類分佈的均值的影響,也受到分佈形狀的影響。
注:如無特殊說明,以上大部分內容爲摘選自張學工所著《模式識別》。