轉載自http://www.cnblogs.com/zhangchaoyang/articles/2642032.html
本文給出基於兩種統計量的假設檢驗,來檢驗變量間是否獨立--χ2與秩和。χ2越小說明越獨立。你可能會參考另一篇博客相關性檢驗。
假設檢驗
假設檢驗(Test of Hypothesis)又稱爲顯著性檢驗(Test of Ststistical Significance)。
在抽樣研究中,由於樣本所來自的總體其參數是未知的,只能根據樣本統計量對其所來自總體的參數進行估計,如果要比較兩個或幾個總體的參數是否相同,也只能分別從這些總體中抽取樣本,根據這些樣本的統計量作出統計推斷,籍此比較總體參數是否相同。由於存在抽樣誤差,總體參數與樣本統計量並不恰好相同,因此判斷兩個或多個總體參數是否相同是一件很困難的事情。
基本的解決方法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分佈爲已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t—檢驗法、χ2檢驗法、F—檢驗法,秩和檢驗等。
χ2獨立性檢
χ2檢驗是一種無參數的假設檢驗。
考慮這以一個問題:某地區有10000合法選民,現統計了男性和女性分別有多少人蔘加了投票。
Men Women _____________________________ Voted 2792 3591 Didn't vote 1486 2131
問“性別”和“投票”是不是相互獨立的?
下面就使用假設檢驗的方法解決這個問題。
我們假設H0:性別和投票相互獨立。備選假設H1:性別與投票相關。
計算上表的行和與列和。
OBSERVED TABLE
Men Women Total
_____________________________ |______
Voted 2792 3591 | 6383
Didn't vote 1486 2131 | 3617
_____________________________________
Total 4278 5722 | 10000
原始表中的數據用Aij表示,行和用Ai·表示,列和用A·j表示,全部元素的和用A··表示。
投票的概率:
選民爲男性的概率:
在H0下,我們認爲投票與性別無關,所以男性參加投票的概率爲:
這樣可以算出男性投票的期望值:0.2731×10000=2731。於是就得到了下面這張“期望表”
EXPECTED TABLE
Men Women Total
_____________________________ |______
Voted 2731 3652 | 6383
Didn't vote 1547 2070 | 3617
_____________________________________
Total 4278 5722 | 10000
觀察值與期望值的差值爲誤差。對於每一個觀察值我們計算誤差的平方與期望值的比值。
c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070
χ2=c11+c12+c21+c22=6.584283457
定義自由度爲(rows-1)*(cols-1),在我們的例子中自由度爲1。
查表:
Degrees of
freedom 99% ... 10% 5% 1%
_____________________________________________________
1 0.00016 2.71 3.84 6.64
2 0.020 4.60 5.99 9.21
由於χ2介於3.84和6.64之間,所以P值介於5%和1%之間,也就是說我們接收假設H0的把握還不到5%,因此拒絕它。
最後給出CHI-Square獨立檢測的公式:
自由度,r表示行數,c表示列數
期望值,nr是行和,nc是列和,n是所有元素的和
統計量,Or,c是觀察值
由(3)式可以推出,對於一個2×2的contigency table,χ2統計量可以由(4)式來計算。
|
|
|
|
Category 1 |
|
|
|
Category 2 |
|
|
|
Total |
|
|
|
基於χ2的特徵項選擇
既然χ2統計量可以獨立性檢驗,從獨立性檢驗的對立面來考慮,χ2統計量也可以用來作相關性的度量。χ2越小說明變量之間越獨立,χ2越大說明變量之間越相關。
文檔類別Cj | Cj的補集 | |
詞條w | a | b |
w的補集 | c | d |
a表示詞條w在類別Cj中出現的頻數;b表示詞條w在Cj以外的其他類別中出現的頻數;c表示除w以外的其他詞條在Cj中出現的頻數;d表示除w以外的其他詞條在除Cj外的類別中出現的頻數。
利用公式(4)計算每個詞條對於每種分類的χ2統計量,記爲χ2(w,Cj)。說明詞條與分類正相關;說明詞條與分類負相關。
則詞條對整個語料庫的記χ2值爲
根據(5)式計算每個詞條的平均χ2值,選最大的K個作爲特徵項。
秩和檢驗
秩和檢驗也是一種無參數的假設檢驗。它從兩個未知分佈的總體中獨立、隨機地抽取容量分別爲n1、n2的樣本,設n1<n2。然後把兩個樣本混合在一起進行排序,得到每個樣本單位的秩次。當幾個數據的大小相同秩次卻不相同時,最終的秩次取其算術平均。
數據: | 5 | 6 | 6 | 7 | 7 | 8 | 8 | 9 | 10 | 10 | 11 |
秩號: | 1 | 2.5 | 2.5 | 4.5 | 4.5 | 6.5 | 6.5 | 8 | 9.5 | 9.5 | 11 |
紅顏色的數據來自一個總體,黑顏色的來自另一個總體。n1=5,n2=6。
原假設:兩個總體服從相同的分佈。
備選假設:兩個總體服從不同的分佈。
總體Ⅰ的秩和 T=2.5+4.5+6.5+6.5+9.5=29.5