分類數據分析

$\chi ^{2}$ 卡方檢驗的應用主要表現在兩個方面：擬合優度檢驗和獨立性檢驗。

列聯表是進行獨立性檢驗的重要工具。

統計數據的類型分別有：分類數據、順序數據、數值型數據。

分類數據是對事物進行分類的結果，其特徵是，調查結果雖然用數值表示，但不同數值描述調查對象的不同特徵。

注意：分類數據的結果是頻數， $\chi ^{2}$ 卡方檢驗是對分類數據的頻數進行分析的統計方法。

$\chi ^{2}$ 卡方統計量應用

$\chi ^{2}$ 卡方統計量可以用於測定兩個分類變量之間的相關程度。

若用 $f_{0}$ 表示觀察值頻數，用 $f_{e}$ 表示期望頻數，則 $\chi ^{2}$ 卡方統計量可以寫爲：

$\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}$

$\chi ^{2}$ 卡方統計量有以下特徵：

$\chi ^{2}\geq 0$ ，因爲它是對平方結果的彙總；
$\chi ^{2}$ 卡方統計量的分佈與自由度有關；
$\chi ^{2}$ 卡方統計量描述了觀察值和期望值的接近程度；

兩者越接近，即的絕對值越小，計算出的 $\chi ^{2}$ 值就越小；反之，的絕對值越大，計算出的 $\chi ^{2}$ 值就越大。

注意： $\chi ^{2}$ 檢驗正是通過對 $\chi ^{2}$ 的計算結果與 $\chi ^{2}$ 分佈中的臨界值進行比較，做出是否拒絕原假設的統計決策。

$\chi ^{2}$ 分佈與自由度的關係

如上圖所示，自由度越小，分佈就越向左邊傾斜，隨着自由度的增加， $\chi ^{2}$ 分佈的偏斜程度趨於緩解，逐漸顯露出對稱性，隨着自由度繼續增大， $\chi ^{2}$ 分佈將趨近於對稱的正態分佈。

（2）利用 $\chi ^{2}$ 統計量，可以對分類數據進行擬合優度檢驗和獨立性檢驗

擬合優度檢驗

擬合優度檢驗是對一個分類變量的檢驗。

擬合優度檢驗是用 $\chi ^{2}$ 統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分佈狀況，計算出分類變量中各類別的期望頻數，與分佈的觀察頻數進行對比，判斷期望頻數與觀察頻數是否有顯著差異，從而達到對分類變量進行分析的目的。

案例分析

1912年4月15日，豪華巨輪泰坦尼克號與冰山相撞沉沒。當時船上共有2208人，其中男性1738人，女性470人。海難發生後，倖存者共有718人，其中男性374人，女性344人，以a=0.1的顯著性水平檢驗存活狀況與性別是否有關。

在本案例中需要判斷觀察頻數與期望頻數是否一致。

$H_{0}$ ：觀察品數與期望頻數一致

$H_{1}$ ：觀察頻數與期望頻數不一致

$\chi ^{2}$ 卡方統計量計算表
		步驟一	步驟二	步驟三	步驟四
$f_{0}$	$f_{e}$	$f_{0} -f_{e}$	$\left ( ^{f_{0}-f_{e}} \right )^{2}$	$\left ( ^{f_{0}-f_{e}} \right )^{2}/f_{e}$	$\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}=303$
374	565(=1738X(718/2208))	-191	36481	64.6
344	153(=470X(718/2208))	191	36481	238.4

自由度df =R-1， R爲分類變量類型個數。在本案例中，分類變量是性別，有男、女兩個類別，故R=2，於是自由度df=2-1=1，經查 $\chi ^{2}$ 分佈表， $\chi _{0.1}^{2}\left ( 1 \right )= 2.706$ ，括號中的數字表示自由度。因爲 $\chi ^{2}$ 值遠大於 $\chi _{0.1}^{2}$ ，故拒絕 $H_{0}$ ，接受 $H_{1}$ ，說明存活狀況與性別顯著相關。

獨立性檢驗

獨立性檢驗是對兩個分類變量的分析。關心兩者是否有關聯。分析過程可以通過列聯表的方式呈現，故此種分析被成爲列聯分析。

列聯表：是將兩個以上變量進行交叉分類的頻數分佈表。

獨立性檢驗就是分析列聯表中行變量和列變量是否相互獨立。（也就是檢驗行變量和列變量之間是否存在依賴關係）

案例分析

一種原料來自三個不同地區，原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗，結果如下圖，要求檢驗各個地區和原料等級之間是否存在依賴關係（a=0.05）。

$H_{0}$ ：地區和原料等級之間是獨立的

$H_{1}$ ：地區和原料等級之間是不獨立的

3x3列聯表的期望值及 $\chi ^{2}$ 計算結果
行	列	$f_{0}$	$f_{e}$	$f_{0} -f_{e}$	$\left ( ^{f_{0}-f_{e}} \right )^{2}$	$\left ( ^{f_{0}-f_{e}} \right )^{2}/f_{e}$
1	1	52	45.36	6.64	44.09	0.97
1	2	64	52.64	11.36	129.05	2.45
1	3	24	42.00	-18	324	7.71
2	1	60	55.40	4.60	21.16	0.38
2	2	59	64.30	-5.3	28.09	0.44
2	3	52	51.30	0.7	0.49	0.01
3	1	50	61.24	-11.24	126.34	2.06
3	2	65	71.06	-6.06	36.72	0.52
3	3	74	56.70	17.30	299.29	5.28
$\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}=19.82$