分類數據分析

\chi ^{2}卡方檢驗的應用主要表現在兩個方面:擬合優度檢驗獨立性檢驗

列聯表是進行獨立性檢驗的重要工具。

統計數據的類型分別有:分類數據、順序數據、數值型數據。

分類數據是對事物進行分類的結果,其特徵是,調查結果雖然用數值表示,但不同數值描述調查對象的不同特徵。

注意:分類數據的結果是頻數,\chi ^{2}卡方檢驗是對分類數據的頻數進行分析的統計方法。

\chi ^{2}卡方統計量應用

\chi ^{2}卡方統計量可以用於測定兩個分類變量之間的相關程度。

若用f_{0}表示觀察值頻數,用f_{e}表示期望頻數,則\chi ^{2}卡方統計量可以寫爲:

\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}

\chi ^{2}卡方統計量有以下特徵:

  1. \chi ^{2}\geq 0,因爲它是對平方結果的彙總;
  2. \chi ^{2}卡方統計量的分佈與自由度有關;
  3. \chi ^{2}卡方統計量描述了觀察值和期望值的接近程度;

兩者越接近,即的絕對值越小,計算出的\chi ^{2}值就越小;反之,的絕對值越大,計算出的\chi ^{2}值就越大。

注意\chi ^{2}檢驗正是通過對\chi ^{2}的計算結果與\chi ^{2}分佈中的臨界值進行比較,做出是否拒絕原假設的統計決策。

\chi ^{2}分佈與自由度的關係

如上圖所示,自由度越小,分佈就越向左邊傾斜,隨着自由度的增加,\chi ^{2}分佈的偏斜程度趨於緩解,逐漸顯露出對稱性,隨着自由度繼續增大,\chi ^{2}分佈將趨近於對稱的正態分佈

(2)利用\chi ^{2}統計量,可以對分類數據進行擬合優度檢驗和獨立性檢驗

  • 擬合優度檢驗

擬合優度檢驗是對一個分類變量的檢驗。

擬合優度檢驗是用\chi ^{2}統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分佈狀況,計算出分類變量中各類別的期望頻數,與分佈的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著差異,從而達到對分類變量進行分析的目的。

案例分析

1912年4月15日,豪華巨輪泰坦尼克號與冰山相撞沉沒。當時船上共有2208人,其中男性1738人,女性470人。海難發生後,倖存者共有718人,其中男性374人,女性344人,以a=0.1的顯著性水平檢驗存活狀況性別是否有關。

在本案例中需要判斷觀察頻數與期望頻數是否一致。

H_{0}:觀察品數與期望頻數一致

H_{1}:觀察頻數與期望頻數不一致

\chi ^{2}卡方統計量計算表
    步驟一 步驟二 步驟三 步驟四
f_{0} f_{e} f_{0} -f_{e} \left ( ^{f_{0}-f_{e}} \right )^{2} \left ( ^{f_{0}-f_{e}} \right )^{2}/f_{e} \chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}=303
374 565(=1738X(718/2208)) -191 36481 64.6
344 153(=470X(718/2208)) 191 36481 238.4

 

 

 

 

 

 

自由度df =R-1, R爲分類變量類型個數。在本案例中,分類變量是性別,有男、女兩個類別,故R=2,於是自由度df=2-1=1,經查\chi ^{2}分佈表,\chi _{0.1}^{2}\left ( 1 \right )= 2.706,括號中的數字表示自由度。因爲\chi ^{2}值遠大於\chi _{0.1}^{2},故拒絕H_{0},接受H_{1},說明存活狀況與性別顯著相關

  • 獨立性檢驗

獨立性檢驗是對兩個分類變量的分析。關心兩者是否有關聯。分析過程可以通過列聯表的方式呈現,故此種分析被成爲列聯分析。

列聯表:是將兩個以上變量進行交叉分類的頻數分佈表

獨立性檢驗就是分析列聯表中行變量和列變量是否相互獨立。(也就是檢驗行變量和列變量之間是否存在依賴關係)

案例分析

一種原料來自三個不同地區,原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如下圖,要求檢驗各個地區和原料等級之間是否存在依賴關係(a=0.05)。

H_{0}:地區和原料等級之間是獨立的

H_{1}:地區和原料等級之間是不獨立的

3x3列聯表的期望值及\chi ^{2}計算結果
f_{0} f_{e} f_{0} -f_{e} \left ( ^{f_{0}-f_{e}} \right )^{2} \left ( ^{f_{0}-f_{e}} \right )^{2}/f_{e}
1 1 52 45.36 6.64 44.09 0.97
1 2 64 52.64 11.36 129.05 2.45
1 3 24

42.00

-18 324 7.71
2 1 60 55.40 4.60 21.16 0.38
2 2 59 64.30 -5.3 28.09 0.44
2 3 52 51.30 0.7 0.49 0.01
3 1 50 61.24 -11.24 126.34 2.06
3 2 65 71.06 -6.06 36.72 0.52
3 3 74 56.70 17.30 299.29 5.28
\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}=19.82

 

 

 

 

 

 

 

 

 

 

 

 

 

\chi ^{2}的自由度=(R-1)(C-1)=(3-1)(3-1)=4

令a=0.05,查表知:\chi _{0.05}^{2}\left ( 4\right )= 9.488

由於\chi ^{2}>\chi _{0.05}^{2}\left ( 4\right ),故拒絕H_{0},接受H_{1},即地區和原料等級之間存在依賴關係,原料的質量受地區的影響。

(3)

利用\chi ^{2}分佈對兩個分類變量之間的相關性進行檢驗統計。

如果變量相互獨立,說明它們之間沒有聯繫;反之,則認爲它們存在聯繫。

注意:如果變量之間存在聯繫,它們之間的相關程度有多大?有什麼相關係數可以描述?

  • \varphi相關係數    \varphi = \sqrt{\chi ^{2}/n}
  • c係數 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章