[統計學筆記] (八)分類數據分析

(八)分類數據分析

首先思考問題:

1. 爲什麼要對數據進行分類?如何對數據分類?

2. 數據分類後,如何對分類數據進行分析?

數據分類


分類變量的結果表現爲類別,例如:性別 (男, 女)
各類別用符號或數字代碼來測度
使用分類或順序尺度

  • 你吸菸嗎?  1.是;2.否
  • 你贊成還是反對這一改革方案? 1.贊成;2.反對

對分類數據的描述和分析通常使用列聯表
可使用\chi ^{2}檢驗 

\chi ^{2} 統計量

\chi ^{2}可以用於測定兩個分類變量之間的相關程度。若用f_{o}表示觀察值頻數(observed frequency),用f_{e}表示期望值頻數(expected frequency),則\chi ^{2}統計量可以寫爲:

\chi ^{2} 統計量有如下特徵:首先 \chi ^{2}\geqslant 0,因爲它是對平方結果的彙總;其次,\chi ^{2}統計量的分佈與自由度有關;最後,\chi ^{2} 統計量描述了觀察值與期望值的接近程度。兩者越接近,即\left | f_{0}-f_{e} \right | 越小,計算出的 \chi ^{2} 值就越小;反之,\left | f_{0}-f_{e} \right | 越大,計算出的\chi ^{2}值也越大。\chi ^{2}檢驗正是通過對\chi ^{2}的計算結果與\chi ^{2}分佈中的臨界值進行比較,作出是否拒絕原假設的統計決策。

 \chi ^{2} 分佈與自由度的關係如上圖所示。上圖中顯示了自由度分別爲 1,5 和 10 時相應的 \chi ^{2} 分佈。

自由度越小,分佈就越像左邊傾斜,隨着自由度的增加,\chi ^{2}分佈的偏斜度趨於緩解,逐漸顯露出對稱性,隨着自由度繼續增大,\chi ^{2}分佈將趨近於對稱的正態分佈。

利用\chi ^{2}統計量,可以對分類數據進行擬合優度檢驗和獨立性檢驗。

擬合優度檢驗

擬合優度檢驗是用\chi ^{2}統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分析狀況,計算出分類變量中各類別的期望頻數,與分佈的觀察頻數進行比較,判斷期望頻數與觀察頻數是否有顯著差異,從而達到對分類變量進行分析的目的。

列聯分析:獨立性檢驗

對兩個分類變量的分析,稱爲獨立性檢驗,分佈過程可以通過列聯表的方式呈現,故有人把這種分析稱爲列聯分析。

列聯表:是將兩個以上的變量進行交叉分類的頻數分佈表。由於列聯表中的每個變量都可以有兩個或兩個以上的類別,列聯表會有多種形式。不妨將橫向變量(行)的華分類別視爲R,縱向變量(列)的劃分類別視爲C,這樣可以把每一個具體的列聯表稱爲R\times C列聯表。

下面是 2\times 2 的列聯表 

 下表是稱爲 3\times 3 列聯表。

 

獨立性檢驗就是分析列聯表中行變量和列變量是否互相獨立。

例題:

一種原材料來自三個不同的地區,原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如上表所示,要求檢驗各個地區和原料等級之間是否存在依賴關係。(\alpha =0.05

求解:

H_{0}:地區和原料等級之間是獨立的(不存在依賴關係)

H_{1}:地區和原料等級之間不獨立(存在依賴關係)

這裏分析的關鍵是獲得期望值。

在表中第一行,甲地區的合計爲 140,用 140/500 作爲甲地區原料比例的估計值。

在表中第一列,一級原料的合計爲 162,用 162/500 作爲一級原料比例的估計值。

如果地區和原料等級之間是獨立的,則可以用下面的公式估計第一個單元(甲地區,一級)中的期望比例。

令:A= 樣本單位來自甲地區的事件

      B= 樣本單位屬於一級原料的事件

根據獨立性的概率乘法公式,第一個單元格記作:

 P\left (cell_1 \right ) = P\left ( AB \right ) = P\left ( A \right )P\left ( B \right ) = \left ( \frac{140}{500} \right )\left ( \frac{162}{500} \right ) = 0.09072

0.09072 是第一個單元中的期望比例,相應的頻數期望值爲:

0.09072 \times 500 = 45.36

一般地,可以採用下面式子計算任何一個單元中頻數的期望值:

f_{e}= \frac{RT}{n}\times \frac{CT}{n}\times n = \frac{RT\times CT}{n}

式子中,f_{e} 爲給定單元中的頻數期望值;RT爲給定單元所在行的合計;CT爲給定單元所在列的合計;n爲觀察值得總個數,即樣本量。

根據上面表格中的數據,進行計算:

f_{o} f_{e} f_{o} - f_{e} \left ( f_{o}-f_{e} \right )^{2} \left ( f_{o}-f_{e} \right )^{2}/f_{e}
1 1 52 45.36 6.64 44.09 0.97
1 2 64 52.64 11.36 129.05 2.45
1 3 24 42.00 -18.00 324.00 7.71
2 1 60 55.40 4.60 21.16 0.38
2 2 59 64.30 -5.30 28.09 0.44
2 3 52 51.30 0.70 0.49 0.01
3 1 50 61.24 -11.24 126.34 2.06
3 2 65 71.06 -6.06 36.72 0.52
3 3 74 56.70 17.30 299.29 5.28
            19.82

 

 

 

 

 

 

 

 

 

\chi ^{2} 的自由度爲:\left ( R-1 \right )\left ( C-1 \right )= 4

令:\alpha = 0.05,查表知:\chi _{0.05}^{2}\left ( 4 \right )= 9.488

由於 \chi ^{2}>\chi _{0.05}^{2}\left ( 4 \right ),故拒絕 H_{0},接受  H_{1},即地區和原料等級之間存在依賴關係,原料的質量受地區的影響。

注意:自由度的計算說明:

計算公式爲: 自由度 = (行數-1)(列數-1)=(R-1)(C-1)


列聯表中的相關測量

\varphi 相關係數

列聯相關係數

V 相關係數

數值分析

列聯分析中應注意的問題

條件百分表的方向

\chi ^{2} 分佈的期望值準則

(更新中)

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章