卡方檢驗的應用主要表現在兩個方面:擬合優度檢驗和獨立性檢驗。
列聯表是進行獨立性檢驗的重要工具。
統計數據的類型分別有:分類數據、順序數據、數值型數據。
分類數據是對事物進行分類的結果,其特徵是,調查結果雖然用數值表示,但不同數值描述調查對象的不同特徵。
注意:分類數據的結果是頻數,卡方檢驗是對分類數據的頻數進行分析的統計方法。
卡方統計量應用
卡方統計量可以用於測定兩個分類變量之間的相關程度。
若用表示觀察值頻數,用表示期望頻數,則卡方統計量可以寫爲:
卡方統計量有以下特徵:
- ,因爲它是對平方結果的彙總;
- 卡方統計量的分佈與自由度有關;
- 卡方統計量描述了觀察值和期望值的接近程度;
兩者越接近,即的絕對值越小,計算出的值就越小;反之,的絕對值越大,計算出的值就越大。
注意:檢驗正是通過對的計算結果與分佈中的臨界值進行比較,做出是否拒絕原假設的統計決策。
分佈與自由度的關係
如上圖所示,自由度越小,分佈就越向左邊傾斜,隨着自由度的增加,分佈的偏斜程度趨於緩解,逐漸顯露出對稱性,隨着自由度繼續增大,分佈將趨近於對稱的正態分佈。
(2)利用統計量,可以對分類數據進行擬合優度檢驗和獨立性檢驗
- 擬合優度檢驗
擬合優度檢驗是對一個分類變量的檢驗。
擬合優度檢驗是用統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分佈狀況,計算出分類變量中各類別的期望頻數,與分佈的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著差異,從而達到對分類變量進行分析的目的。
案例分析
1912年4月15日,豪華巨輪泰坦尼克號與冰山相撞沉沒。當時船上共有2208人,其中男性1738人,女性470人。海難發生後,倖存者共有718人,其中男性374人,女性344人,以a=0.1的顯著性水平檢驗存活狀況與性別是否有關。
在本案例中需要判斷觀察頻數與期望頻數是否一致。
:觀察品數與期望頻數一致
:觀察頻數與期望頻數不一致
步驟一 | 步驟二 | 步驟三 | 步驟四 | ||
374 | 565(=1738X(718/2208)) | -191 | 36481 | 64.6 | |
344 | 153(=470X(718/2208)) | 191 | 36481 | 238.4 |
自由度df =R-1, R爲分類變量類型個數。在本案例中,分類變量是性別,有男、女兩個類別,故R=2,於是自由度df=2-1=1,經查分佈表,,括號中的數字表示自由度。因爲值遠大於,故拒絕,接受,說明存活狀況與性別顯著相關。
- 獨立性檢驗
獨立性檢驗是對兩個分類變量的分析。關心兩者是否有關聯。分析過程可以通過列聯表的方式呈現,故此種分析被成爲列聯分析。
列聯表:是將兩個以上變量進行交叉分類的頻數分佈表。
獨立性檢驗就是分析列聯表中行變量和列變量是否相互獨立。(也就是檢驗行變量和列變量之間是否存在依賴關係)
案例分析
一種原料來自三個不同地區,原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如下圖,要求檢驗各個地區和原料等級之間是否存在依賴關係(a=0.05)。
:地區和原料等級之間是獨立的
:地區和原料等級之間是不獨立的
行 | 列 | |||||
1 | 1 | 52 | 45.36 | 6.64 | 44.09 | 0.97 |
1 | 2 | 64 | 52.64 | 11.36 | 129.05 | 2.45 |
1 | 3 | 24 |
42.00 |
-18 | 324 | 7.71 |
2 | 1 | 60 | 55.40 | 4.60 | 21.16 | 0.38 |
2 | 2 | 59 | 64.30 | -5.3 | 28.09 | 0.44 |
2 | 3 | 52 | 51.30 | 0.7 | 0.49 | 0.01 |
3 | 1 | 50 | 61.24 | -11.24 | 126.34 | 2.06 |
3 | 2 | 65 | 71.06 | -6.06 | 36.72 | 0.52 |
3 | 3 | 74 | 56.70 | 17.30 | 299.29 | 5.28 |
的自由度=(R-1)(C-1)=(3-1)(3-1)=4
令a=0.05,查表知:
由於>,故拒絕,接受,即地區和原料等級之間存在依賴關係,原料的質量受地區的影響。
(3)
利用分佈對兩個分類變量之間的相關性進行檢驗統計。
如果變量相互獨立,說明它們之間沒有聯繫;反之,則認爲它們存在聯繫。
注意:如果變量之間存在聯繫,它們之間的相關程度有多大?有什麼相關係數可以描述?
- 相關係數
- c係數