第九章列聯分析

列聯分析主要用於分類數據的分析

1 分類數據與列聯表

1 分類數據

如：完整家庭/離異家庭、一等品/二等品、三等品……

2 列聯表的構造

列聯表是由兩個以上的變量進行交叉分類的頻數分佈表。

3 列聯表的分佈

列聯表的分佈可以從兩個方便來看：一個是觀察值的分佈；一個是期望值的分佈。
(1)觀察值
條件頻數、行邊緣頻數、列邊緣頻數、百分比
(2)期望值分佈
根據比例求出的各個變量的期望值
以四個公司對改革方案的贊成/反對爲例，若全部樣本爲420（100+120+90+110），贊成改革方案的有279，佔總數的66.4%。如果各公司對改革方案的看法相同，則對一公司來說，贊成該方案的人數應當爲：0.664*100=66人，期望值與觀察值應非常相近。
對於π 1 =π 2 =π 3 =π 4 =0.664(π i 爲第i 個公司贊成改革方案的百分比)，可以採用χ 2 檢驗。
一般情況下，任何一個單元中頻數的期望值：
f e =RTn ×CTn ×n=RT×CTn
其中：RT爲給定單元格所在行的合計，CT爲給定單元格所在列的合計，n爲觀察值總個數，即樣本容量。

2 χ 2 檢驗

若用f o   表示觀察值頻數，用f e   表示期望值頻數，χ 2   統計量可爲：
χ 2 =∑(f o −f e ) 2 f e
步驟：(1) H 0 : 不存在差異 H 1 : 存在差異
(2) 計算統計量值和臨界值
χ 2   分佈的自由度爲(行數-1)(列數-1)
(3) 比較統計量值和臨界值大小，做出是否拒絕原假設的決策

3 列聯表中的相關測量

在上面利用χ 2 分佈對兩個分類變量之間的相關性進行統計檢驗。如果變量相互獨立，說明它們之間沒有聯繫；反之，則認爲它們之間存在聯繫。如果存在聯繫，它們之間的相關程度多大？
把分類數據之間的相關稱爲品質相關。

1 φ 相關係數

φ 相關係數是描述2× 2列聯表數據相關程度最常用的一種相關係數，計算公式爲：
φ=χ 2 /n − − − − √
此時φ 係數的取值範圍是在0∼ 1之間，且φ 的絕對值越大，說明變量的相關程度越大。但當列聯表的行數R或列數C大於2時，φ 係數將隨着R或C的變動而增大，且φ 值沒有上線，這是φ 係數測定兩個變量的相關程度，可以採用列聯相關係數。

2 列聯相關係數

列聯相關係數又稱列聯繫數，簡稱c 係數，主要用於大於2× 2列聯表的情況，計算公式爲:
c=χ 2 χ 2 +n − − − − − − √
特點：相互獨立時，係數爲0，不可能大於1，其可能的最大值依賴於列聯表的行數和列數，且隨着R和C的增大和增大。
缺點：根據不同的行和列計算的列聯繫數不便於比較，除非兩個兩個列聯表中的行數和列數一致。

3 V 相關係數

鑑於φ 係數無上限，c 係數小於1的情況，克萊默提出了V 係數，計算公式爲：
V=χ 2 n×min[(R−1),(C−1)] − − − − − − − − − − − − − − − − − − − − − √
V 的取值在0∼ 1之間

4 數值分析

在描述相關程度究竟有多高時，可以比較計算出的相關係數與此相關係數的最大值，以看出相關程度的高低。

4 列聯分析中應注意的問題

1 條件百分表的方向

一般來說，在列聯表中變量的位置是任意的。如果變量X和Y存在因果關係，令X爲自變量，Y爲因變量，那麼一般把自變量X放在列位置，條件百分比也多按自變量的方向計算。但也有例外情況。

2 χ 2 分佈的期望值準則

利用χ 2 分佈進行獨立性檢驗，要求樣本量必須足夠大，特別是每個單元中的期望頻數（理論頻數）不能過小，否則應用χ 2 檢驗可能會得出錯誤結論。
關於小單元次數通常有兩項準則：
(一) 如果只有兩個單元，每個單元的期望頻數必須是5或5以上
(二) 倘若有兩個以上單元，如果20%的單元期望頻率f e 小於5，則不能應用χ 2 檢驗

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第九章列聯分析

1 分類數據與列聯表

1 分類數據

2 列聯表的構造

3 列聯表的分佈

2 χ 2 檢驗

3 列聯表中的相關測量

1 φ 相關係數

2 列聯相關係數

3 V 相關係數

4 數值分析

4 列聯分析中應注意的問題

1 條件百分表的方向

2 χ 2 分佈的期望值準則

dotnet C# 創建 X11 應用時設置窗口背景顏色

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Navicat安裝與激活教程

go語言 defer延遲機制

華爲交換機配置實驗項目筆記

深入淺出SQL（三）——表的規範化

分類算法——決策樹（1）

分類算法——決策樹算法及其R實現

第五章隨機事件及其概率

R語言quantstrat包

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第九章 列聯分析

1 分類數據與列聯表

1 分類數據

2 列聯表的構造

3 列聯表的分佈

2 χ 2 檢驗

3 列聯表中的相關測量

1 φ 相關係數

2 列聯相關係數

3 V 相關係數

4 數值分析

4 列聯分析中應注意的問題

1 條件百分表的方向

2 χ 2 分佈的期望值準則

第九章列聯分析