卡方分佈(chi-square distribution, χ2χ2-distribution)是概率統計裏常用的一種概率分佈,也是統計推斷裏應用最廣泛的概率分佈之一,在假設檢驗與置信區間的計算中經常能見到卡方分佈的身影。
我們先來看看卡方分佈的定義:
若kk
卡方分佈的期望與方差分爲爲:
E(χ2)=nE(χ2)=n爲卡方分佈的自由度。
2.卡方檢驗
χ2χ2成立的情況下獲得當前統計量以及更極端情況的概率p。如果p很小,說明觀察值與理論值的偏離程度大,應該拒絕原假設。否則不能拒絕原假設。
χ2χ2
其中,A爲實際值,T爲理論值。
χ2χ2包含了以下兩個信息:
1.實際值與理論值偏差的絕對大小。
2.差異程度與理論值的相對大小。
3.卡方檢驗做特徵選擇
卡方檢驗經常被用來做特徵選擇。舉個網絡上的例子,假設我們有一堆新聞標題,需要判斷標題中包含某個詞(比如吳亦凡)是否與該條新聞的類別歸屬(比如娛樂)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表:
組別 | 屬於娛樂
|
不屬於娛樂
|
合計 | |
---|---|---|---|---|
不包含吳亦凡
|
19 | 24 | 43 | |
包含吳亦凡
|
34 | 10 | 44 | |
合計 | 53 | 34 | 87 |
通過這個四格表我們得到的第一個信息是:標題是否包含吳亦凡確實對新聞是否屬於娛樂有統計上的差別,包含吳亦凡的新聞屬於娛樂的比例更高,但我們還無法排除這個差別是否由於抽樣誤差導致。那麼首先假設標題是否包含吳亦凡與新聞是否屬於娛樂是獨立無關的,隨機抽取一條新聞標題,屬於娛樂類別的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%
理論值的四格表爲:
組別 | 屬於娛樂
|
不屬於娛樂
|
合計 |
---|---|---|---|
不包含吳亦凡
|
43 * 0.609 = 26.2 | 43 * 0.391 = 16.8 | 43 |
包含吳亦凡
|
44 * 0.609 = 26.8 | 44 * 0.391 = 17.2 | 44 |
顯然,如果兩個變量是獨立無關的,那麼四格表中的理論值與實際值的差異會非常小。
則χ2χ2
標準的四格表χ2χ2
得到χ2χ2的值以後,怎樣可以得知無關性假設是否可靠?接下來我們應該查詢卡方分佈的臨界值表了。
首先我們明確自由度的概念:自由度v=(行數-1)*(列數-1)。
然後看卡方分佈的臨界概率,表如下:
一般我們取p=0.05,也就是說兩者不相關的概率爲0.05時,對應的卡方值爲3.84。顯然10.0>3.84,那就說明包含吳亦凡的新聞不屬於娛樂的概率小於0.05。換句話說,包含吳亦凡的新聞與娛樂新聞相關的概率大於95%!
總結一下:我們可以通過卡方值來判斷特徵是否與類型有關。卡方值越大,說明關聯越強,特徵越需要保留。卡方值越小,說明越不相關,特徵需要去除。