獨立性檢驗

獨立性檢驗

原創

伦敦伪枪

2018-08-31 01:19

轉載自http://www.cnblogs.com/zhangchaoyang/articles/2642032.html

本文給出基於兩種統計量的假設檢驗，來檢驗變量間是否獨立--χ²與秩和。χ²越小說明越獨立。你可能會參考另一篇博客相關性檢驗。

假設檢驗

假設檢驗（Test of Hypothesis）又稱爲顯著性檢驗（Test of Ststistical Significance）。

在抽樣研究中，由於樣本所來自的總體其參數是未知的，只能根據樣本統計量對其所來自總體的參數進行估計，如果要比較兩個或幾個總體的參數是否相同，也只能分別從這些總體中抽取樣本，根據這些樣本的統計量作出統計推斷，籍此比較總體參數是否相同。由於存在抽樣誤差，總體參數與樣本統計量並不恰好相同，因此判斷兩個或多個總體參數是否相同是一件很困難的事情。

基本的解決方法是：根據問題的需要對所研究的總體作某種假設，記作H0；選取合適的統計量，這個統計量的選取要使得在假設H0成立時，其分佈爲已知；由實測的樣本，計算出統計量的值，並根據預先給定的顯著性水平進行檢驗，作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t—檢驗法、χ²檢驗法、F—檢驗法，秩和檢驗等。

χ²獨立性檢

χ²檢驗是一種無參數的假設檢驗。

考慮這以一個問題：某地區有10000合法選民，現統計了男性和女性分別有多少人蔘加了投票。

		Men	Women
_____________________________
Voted		2792	3591
Didn't vote	1486	2131

問“性別”和“投票”是不是相互獨立的？

下面就使用假設檢驗的方法解決這個問題。

我們假設H_0：性別和投票相互獨立。備選假設H₁：性別與投票相關。

計算上表的行和與列和。

 OBSERVED TABLE
		  
		Men	Women 	Total
_____________________________ |______
Voted		2792	3591  |	6383
Didn't vote	1486	2131  |	3617
_____________________________________
Total		4278	5722  |	10000

原始表中的數據用A_ij表示，行和用A_i·表示，列和用A_·j表示，全部元素的和用A_··表示。

投票的概率：

選民爲男性的概率：

在H₀下，我們認爲投票與性別無關，所以男性參加投票的概率爲：

這樣可以算出男性投票的期望值：0.2731×10000=2731。於是就得到了下面這張“期望表”

	  EXPECTED TABLE
		  
		Men	Women 	Total
_____________________________ |______
Voted		2731	3652  |	6383
Didn't vote	1547	2070  |	3617
_____________________________________
Total		4278	5722  |	10000

觀察值與期望值的差值爲誤差。對於每一個觀察值我們計算誤差的平方與期望值的比值。

c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070

χ²=c11+c12+c21+c22=6.584283457

定義自由度爲(rows-1)*(cols-1)，在我們的例子中自由度爲1。

查表：

Degrees of
 freedom	99%  ...	10%	5%	1%
_____________________________________________________
1		0.00016		2.71	3.84	6.64
2 		0.020		4.60	5.99	9.21

由於χ²介於3.84和6.64之間，所以P值介於5%和1%之間，也就是說我們接收假設H₀的把握還不到5%，因此拒絕它。

最後給出CHI-Square獨立檢測的公式：

自由度，r表示行數，c表示列數

期望值，n_r是行和，n_c是列和，n是所有元素的和

統計量，O_r,c是觀察值

由（3）式可以推出，對於一個2×2的contigency table，χ²統計量可以由（4）式來計算。

Variable 2	Data type 1	Data type 2	Totals
Category 1	a	b	a + b
Category 2	c	d	c + d
Total	a + c	b + d	a + b + c + d = N

基於χ²的特徵項選擇

既然χ²統計量可以獨立性檢驗，從獨立性檢驗的對立面來考慮，χ²統計量也可以用來作相關性的度量。χ²越小說明變量之間越獨立，χ²越大說明變量之間越相關。

	文檔類別C_j	C_j的補集
詞條w	a	b
w的補集	c	d

a表示詞條w在類別C_j中出現的頻數；b表示詞條w在C_j以外的其他類別中出現的頻數；c表示除w以外的其他詞條在C_j中出現的頻數；d表示除w以外的其他詞條在除C_j外的類別中出現的頻數。

利用公式（4）計算每個詞條對於每種分類的χ²統計量，記爲χ²(w,C_j)。說明詞條與分類正相關；說明詞條與分類負相關。

則詞條對整個語料庫的記χ²值爲

根據（5）式計算每個詞條的平均χ²值，選最大的K個作爲特徵項。

秩和檢驗

秩和檢驗也是一種無參數的假設檢驗。它從兩個未知分佈的總體中獨立、隨機地抽取容量分別爲n1、n2的樣本，設n1<n2。然後把兩個樣本混合在一起進行排序，得到每個樣本單位的秩次。當幾個數據的大小相同秩次卻不相同時，最終的秩次取其算術平均。

數據：	5	6	6	7	7	8	8	9	10	10	11
秩號：	1	2.5	2.5	4.5	4.5	6.5	6.5	8	9.5	9.5	11

紅顏色的數據來自一個總體，黑顏色的來自另一個總體。n1=5,n2=6。

原假設：兩個總體服從相同的分佈。

備選假設：兩個總體服從不同的分佈。

總體Ⅰ的秩和 T=2.5+4.5+6.5+6.5+9.5=29.5

取顯著水平α=0.05，進行雙側檢驗，查“秩和檢驗表”，n1=5，n2=6，得臨界值T1(α)=20，T2(α )=40。

20<29.5<40，樣本落入接受域，所以接受原假設。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

假設檢驗

χ²獨立性檢

基於χ²的特徵項選擇

秩和檢驗

matlab中視頻的讀取與顯示

數字圖像處理基礎

獨立性檢驗

GBDT（MART）迭代決策樹

HOG特徵-理解篇

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

獨立性檢驗

假設檢驗

χ2獨立性檢

基於χ2的特徵項選擇

秩和檢驗

χ²獨立性檢

基於χ²的特徵項選擇