[統計學筆記] （八）分類數據分析

原創

梅森上校

2020-04-14 00:57

（八）分類數據分析

首先思考問題：

1. 爲什麼要對數據進行分類？如何對數據分類？

2. 數據分類後，如何對分類數據進行分析？

數據分類

分類變量的結果表現爲類別，例如：性別 (男, 女)
各類別用符號或數字代碼來測度
使用分類或順序尺度

你吸菸嗎? 1.是；2.否
你贊成還是反對這一改革方案? 1.贊成；2.反對

對分類數據的描述和分析通常使用列聯表
可使用 $\chi ^{2}$ 檢驗

$\chi ^{2}$ 統計量

$\chi ^{2}$ 可以用於測定兩個分類變量之間的相關程度。若用 $f_{o}$ 表示觀察值頻數（observed frequency），用 $f_{e}$ 表示期望值頻數（expected frequency），則 $\chi ^{2}$ 統計量可以寫爲：

$\chi ^{2}$ 統計量有如下特徵：首先 $\chi ^{2}\geqslant 0$ ，因爲它是對平方結果的彙總；其次， $\chi ^{2}$ 統計量的分佈與自由度有關；最後， $\chi ^{2}$ 統計量描述了觀察值與期望值的接近程度。兩者越接近，即 $\left | f_{0}-f_{e} \right |$ 越小，計算出的 $\chi ^{2}$ 值就越小；反之， $\left | f_{0}-f_{e} \right |$ 越大，計算出的 $\chi ^{2}$ 值也越大。 $\chi ^{2}$ 檢驗正是通過對 $\chi ^{2}$ 的計算結果與 $\chi ^{2}$ 分佈中的臨界值進行比較，作出是否拒絕原假設的統計決策。

$\chi ^{2}$ 分佈與自由度的關係如上圖所示。上圖中顯示了自由度分別爲 1,5 和 10 時相應的 $\chi ^{2}$ 分佈。

自由度越小，分佈就越像左邊傾斜，隨着自由度的增加， $\chi ^{2}$ 分佈的偏斜度趨於緩解，逐漸顯露出對稱性，隨着自由度繼續增大， $\chi ^{2}$ 分佈將趨近於對稱的正態分佈。

利用 $\chi ^{2}$ 統計量，可以對分類數據進行擬合優度檢驗和獨立性檢驗。

擬合優度檢驗

擬合優度檢驗是用 $\chi ^{2}$ 統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分析狀況，計算出分類變量中各類別的期望頻數，與分佈的觀察頻數進行比較，判斷期望頻數與觀察頻數是否有顯著差異，從而達到對分類變量進行分析的目的。

列聯分析：獨立性檢驗

對兩個分類變量的分析，稱爲獨立性檢驗，分佈過程可以通過列聯表的方式呈現，故有人把這種分析稱爲列聯分析。

列聯表：是將兩個以上的變量進行交叉分類的頻數分佈表。由於列聯表中的每個變量都可以有兩個或兩個以上的類別，列聯表會有多種形式。不妨將橫向變量（行）的華分類別視爲R，縱向變量（列）的劃分類別視爲C，這樣可以把每一個具體的列聯表稱爲 $R\times C$ 列聯表。

下面是 $2\times 2$ 的列聯表

下表是稱爲 $3\times 3$ 列聯表。

獨立性檢驗就是分析列聯表中行變量和列變量是否互相獨立。

例題：

一種原材料來自三個不同的地區，原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗，結果如上表所示，要求檢驗各個地區和原料等級之間是否存在依賴關係。（ $\alpha =0.05$ ）

求解：

$H_{0}$ ：地區和原料等級之間是獨立的（不存在依賴關係）

$H_{1}$ ：地區和原料等級之間不獨立（存在依賴關係）

這裏分析的關鍵是獲得期望值。

在表中第一行，甲地區的合計爲 140，用 140/500 作爲甲地區原料比例的估計值。

在表中第一列，一級原料的合計爲 162，用 162/500 作爲一級原料比例的估計值。

如果地區和原料等級之間是獨立的，則可以用下面的公式估計第一個單元（甲地區，一級）中的期望比例。

令：樣本單位來自甲地區的事件

樣本單位屬於一級原料的事件

根據獨立性的概率乘法公式，第一個單元格記作：

$P\left (cell_1 \right ) = P\left ( AB \right ) = P\left ( A \right )P\left ( B \right ) = \left ( \frac{140}{500} \right )\left ( \frac{162}{500} \right ) = 0.09072$

0.09072 是第一個單元中的期望比例，相應的頻數期望值爲：

$0.09072 \times 500 = 45.36$

一般地，可以採用下面式子計算任何一個單元中頻數的期望值：

$f_{e}= \frac{RT}{n}\times \frac{CT}{n}\times n = \frac{RT\times CT}{n}$

式子中， $f_{e}$ 爲給定單元中的頻數期望值；RT爲給定單元所在行的合計；CT爲給定單元所在列的合計；n爲觀察值得總個數，即樣本量。

根據上面表格中的數據，進行計算：

行	列	$f_{o}$	$f_{e}$	$f_{o} - f_{e}$	$\left ( f_{o}-f_{e} \right )^{2}$	$\left ( f_{o}-f_{e} \right )^{2}/f_{e}$
1	1	52	45.36	6.64	44.09	0.97
1	2	64	52.64	11.36	129.05	2.45
1	3	24	42.00	-18.00	324.00	7.71
2	1	60	55.40	4.60	21.16	0.38
2	2	59	64.30	-5.30	28.09	0.44
2	3	52	51.30	0.70	0.49	0.01
3	1	50	61.24	-11.24	126.34	2.06
3	2	65	71.06	-6.06	36.72	0.52
3	3	74	56.70	17.30	299.29	5.28
						19.82