(八)分類數據分析
首先思考問題:
1. 爲什麼要對數據進行分類?如何對數據分類?
2. 數據分類後,如何對分類數據進行分析?
數據分類
分類變量的結果表現爲類別,例如:性別 (男, 女)
各類別用符號或數字代碼來測度
使用分類或順序尺度
- 你吸菸嗎? 1.是;2.否
- 你贊成還是反對這一改革方案? 1.贊成;2.反對
對分類數據的描述和分析通常使用列聯表
可使用檢驗
統計量
可以用於測定兩個分類變量之間的相關程度。若用表示觀察值頻數(observed frequency),用表示期望值頻數(expected frequency),則統計量可以寫爲:
統計量有如下特徵:首先 ,因爲它是對平方結果的彙總;其次,統計量的分佈與自由度有關;最後, 統計量描述了觀察值與期望值的接近程度。兩者越接近,即 越小,計算出的 值就越小;反之, 越大,計算出的值也越大。檢驗正是通過對的計算結果與分佈中的臨界值進行比較,作出是否拒絕原假設的統計決策。
分佈與自由度的關係如上圖所示。上圖中顯示了自由度分別爲 1,5 和 10 時相應的 分佈。
自由度越小,分佈就越像左邊傾斜,隨着自由度的增加,分佈的偏斜度趨於緩解,逐漸顯露出對稱性,隨着自由度繼續增大,分佈將趨近於對稱的正態分佈。
利用統計量,可以對分類數據進行擬合優度檢驗和獨立性檢驗。
擬合優度檢驗
擬合優度檢驗是用統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分析狀況,計算出分類變量中各類別的期望頻數,與分佈的觀察頻數進行比較,判斷期望頻數與觀察頻數是否有顯著差異,從而達到對分類變量進行分析的目的。
列聯分析:獨立性檢驗
對兩個分類變量的分析,稱爲獨立性檢驗,分佈過程可以通過列聯表的方式呈現,故有人把這種分析稱爲列聯分析。
列聯表:是將兩個以上的變量進行交叉分類的頻數分佈表。由於列聯表中的每個變量都可以有兩個或兩個以上的類別,列聯表會有多種形式。不妨將橫向變量(行)的華分類別視爲R,縱向變量(列)的劃分類別視爲C,這樣可以把每一個具體的列聯表稱爲列聯表。
下面是 的列聯表
下表是稱爲 列聯表。
獨立性檢驗就是分析列聯表中行變量和列變量是否互相獨立。
例題:
一種原材料來自三個不同的地區,原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如上表所示,要求檢驗各個地區和原料等級之間是否存在依賴關係。()
求解:
:地區和原料等級之間是獨立的(不存在依賴關係)
:地區和原料等級之間不獨立(存在依賴關係)
這裏分析的關鍵是獲得期望值。
在表中第一行,甲地區的合計爲 140,用 140/500 作爲甲地區原料比例的估計值。
在表中第一列,一級原料的合計爲 162,用 162/500 作爲一級原料比例的估計值。
如果地區和原料等級之間是獨立的,則可以用下面的公式估計第一個單元(甲地區,一級)中的期望比例。
令: 樣本單位來自甲地區的事件
樣本單位屬於一級原料的事件
根據獨立性的概率乘法公式,第一個單元格記作:
0.09072 是第一個單元中的期望比例,相應的頻數期望值爲:
一般地,可以採用下面式子計算任何一個單元中頻數的期望值:
式子中, 爲給定單元中的頻數期望值;RT爲給定單元所在行的合計;CT爲給定單元所在列的合計;n爲觀察值得總個數,即樣本量。
根據上面表格中的數據,進行計算:
行 | 列 | |||||
---|---|---|---|---|---|---|
1 | 1 | 52 | 45.36 | 6.64 | 44.09 | 0.97 |
1 | 2 | 64 | 52.64 | 11.36 | 129.05 | 2.45 |
1 | 3 | 24 | 42.00 | -18.00 | 324.00 | 7.71 |
2 | 1 | 60 | 55.40 | 4.60 | 21.16 | 0.38 |
2 | 2 | 59 | 64.30 | -5.30 | 28.09 | 0.44 |
2 | 3 | 52 | 51.30 | 0.70 | 0.49 | 0.01 |
3 | 1 | 50 | 61.24 | -11.24 | 126.34 | 2.06 |
3 | 2 | 65 | 71.06 | -6.06 | 36.72 | 0.52 |
3 | 3 | 74 | 56.70 | 17.30 | 299.29 | 5.28 |
19.82 | ||||||
的自由度爲:
令:,查表知:
由於 ,故拒絕 ,接受 ,即地區和原料等級之間存在依賴關係,原料的質量受地區的影響。
注意:自由度的計算說明:
計算公式爲: 自由度 = (行數-1)(列數-1)=(R-1)(C-1)
列聯表中的相關測量
相關係數
列聯相關係數
V 相關係數
數值分析
列聯分析中應注意的問題
條件百分表的方向
分佈的期望值準則
(更新中)