第九章 列聯分析

列聯分析主要用於分類數據的分析

1 分類數據與列聯表

1 分類數據

如:完整家庭/離異家庭、一等品/二等品、三等品……

2 列聯表的構造

列聯表是由兩個以上的變量進行交叉分類的頻數分佈表。

3 列聯表的分佈

列聯表的分佈可以從兩個方便來看:一個是觀察值的分佈;一個是期望值的分佈。
(1)觀察值
條件頻數、行邊緣頻數、列邊緣頻數、百分比
(2)期望值分佈
根據比例求出的各個變量的期望值
以四個公司對改革方案的贊成/反對爲例,若全部樣本爲420(100+120+90+110),贊成改革方案的有279,佔總數的66.4%。如果各公司對改革方案的看法相同,則對一公司來說,贊成該方案的人數應當爲:0.664*100=66人,期望值與觀察值應非常相近。
對於π 1 =π 2 =π 3 =π 4 =0.664(π i   爲第i  個公司贊成改革方案的百分比),可以採用χ 2   檢驗。
一般情況下,任何一個單元中頻數的期望值:
f e =RTn ×CTn ×n=RT×CTn  
其中:RT爲給定單元格所在行的合計,CT爲給定單元格所在列的合計,n爲觀察值總個數,即樣本容量。

2 χ 2   檢驗

若用f o   表示觀察值頻數,用f e   表示期望值頻數,χ 2   統計量可爲:
χ 2 =(f o f e ) 2 f e   
步驟:(1) H 0 :  不存在差異 H 1 :  存在差異
(2) 計算統計量值和臨界值
χ 2   分佈的自由度爲(行數-1)(列數-1)
(3) 比較統計量值和臨界值大小,做出是否拒絕原假設的決策

3 列聯表中的相關測量

在上面利用χ 2   分佈對兩個分類變量之間的相關性進行統計檢驗。如果變量相互獨立,說明它們之間沒有聯繫;反之,則認爲它們之間存在聯繫。如果存在聯繫,它們之間的相關程度多大?
把分類數據之間的相關稱爲品質相關。

1 φ  相關係數

φ  相關係數是描述2×  2列聯表數據相關程度最常用的一種相關係數,計算公式爲:
φ=χ 2 /n − − − −    
此時φ  係數的取值範圍是在0  1之間,且φ  的絕對值越大,說明變量的相關程度越大。但當列聯表的行數R或列數C大於2時,φ  係數將隨着R或C的變動而增大,且φ  值沒有上線,這是φ  係數測定兩個變量的相關程度,可以採用列聯相關係數。

2 列聯相關係數

列聯相關係數又稱列聯繫數,簡稱c  係數,主要用於大於2×  2列聯表的情況,計算公式爲:
c=χ 2 χ 2 +n  − − − − − −    
特點:相互獨立時,係數爲0,不可能大於1,其可能的最大值依賴於列聯表的行數和列數,且隨着R和C的增大和增大。
缺點:根據不同的行和列計算的列聯繫數不便於比較,除非兩個兩個列聯表中的行數和列數一致。

3 V  相關係數

鑑於φ  係數無上限,c  係數小於1的情況,克萊默提出了V  係數,計算公式爲:
V=χ 2 n×min[(R1),(C1)]  − − − − − − − − − − − − − − − − − − − − −    
V  的取值在0  1之間

4 數值分析

在描述相關程度究竟有多高時,可以比較計算出的相關係數與此相關係數的最大值,以看出相關程度的高低。

4 列聯分析中應注意的問題

1 條件百分表的方向

一般來說,在列聯表中變量的位置是任意的。如果變量X和Y存在因果關係,令X爲自變量,Y爲因變量,那麼一般把自變量X放在列位置,條件百分比也多按自變量的方向計算。但也有例外情況。

2 χ 2   分佈的期望值準則

利用χ 2   分佈進行獨立性檢驗,要求樣本量必須足夠大,特別是每個單元中的期望頻數(理論頻數)不能過小,否則應用χ 2   檢驗可能會得出錯誤結論。
關於小單元次數通常有兩項準則:
(一) 如果只有兩個單元,每個單元的期望頻數必須是5或5以上
(二) 倘若有兩個以上單元,如果20%的單元期望頻率f e   小於5,則不能應用χ 2   檢驗

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章