列聯分析主要用於分類數據的分析
1 分類數據與列聯表
1 分類數據
如:完整家庭/離異家庭、一等品/二等品、三等品……
2 列聯表的構造
列聯表是由兩個以上的變量進行交叉分類的頻數分佈表。
3 列聯表的分佈
列聯表的分佈可以從兩個方便來看:一個是觀察值的分佈;一個是期望值的分佈。
(1)觀察值
條件頻數、行邊緣頻數、列邊緣頻數、百分比
(2)期望值分佈
根據比例求出的各個變量的期望值
以四個公司對改革方案的贊成/反對爲例,若全部樣本爲420(100+120+90+110),贊成改革方案的有279,佔總數的66.4%。如果各公司對改革方案的看法相同,則對一公司來說,贊成該方案的人數應當爲:0.664*100=66人,期望值與觀察值應非常相近。
對於
一般情況下,任何一個單元中頻數的期望值:
其中:RT爲給定單元格所在行的合計,CT爲給定單元格所在列的合計,n爲觀察值總個數,即樣本容量。
2 χ 2 檢驗
若用
步驟:(1)
(2) 計算統計量值和臨界值
(3) 比較統計量值和臨界值大小,做出是否拒絕原假設的決策
3 列聯表中的相關測量
在上面利用
把分類數據之間的相關稱爲品質相關。
1 φ 相關係數
此時
2 列聯相關係數
列聯相關係數又稱列聯繫數,簡稱
特點:相互獨立時,係數爲0,不可能大於1,其可能的最大值依賴於列聯表的行數和列數,且隨着R和C的增大和增大。
缺點:根據不同的行和列計算的列聯繫數不便於比較,除非兩個兩個列聯表中的行數和列數一致。
3 V 相關係數
鑑於
4 數值分析
在描述相關程度究竟有多高時,可以比較計算出的相關係數與此相關係數的最大值,以看出相關程度的高低。
4 列聯分析中應注意的問題
1 條件百分表的方向
一般來說,在列聯表中變量的位置是任意的。如果變量X和Y存在因果關係,令X爲自變量,Y爲因變量,那麼一般把自變量X放在列位置,條件百分比也多按自變量的方向計算。但也有例外情況。
2 χ 2 分佈的期望值準則
利用
關於小單元次數通常有兩項準則:
(一) 如果只有兩個單元,每個單元的期望頻數必須是5或5以上
(二) 倘若有兩個以上單元,如果20%的單元期望頻率