一、爲什麼要用典型相關分析
典型相關分析研究的是兩組變量之間的關係,如{x1, x2, x3}和{y1, y2, y3}兩組變量之間的關係。
具體來說,變量間的相關關係可以分爲以下幾種:
- 兩個變量間的線性相關關係,可用簡單相關係數
- 一個變量與多個變量之間的線性相關關係,可用復相關係數。
- 多個變量與多個變量間的相關關係,使用典型相關關係
二、典型相關分析的基本原理
典型相關分析在研究兩組變量間的線性相關關係時,將每一組變量作爲一個整體進行分析。它採用類似於主成分分析(PCA)的方法,在每一組變量中都選擇若干個有代表性的綜合指標,這些綜合指標是原始變量的線性組合,代表了原始變量的大部分信息,且兩組綜合指標的相關程度最大。
簡單地說,對於{x1, x2, x3}和{y1, y2, y3}兩組變量,我們先求出能體現x和y最大相關性的一對變量u1,v1:u1是{x1, x2, x3}的線性組合,v1是{y1, y2, y3}的線性組合。
然後再類似的求第二、第三對典型相關變量,然後我們就得到兩組典型相關變量{u1,u2,u3}和{v1,v2,v3}。三對典型相關變量是彼此不相關的,它們反應了變量組x和y之間的相關關係。
當兩組變量的數量不一致時,那麼可提取到的典型變量個數就等於較少數據組的變量個數,如對於{x1, x2, x3}和{y1, y2},可提取的典型變量爲2個。
三、實例分析
1.數據
某個研究人員收集了600名大學新生的三個心理變量,四個學術變量(標準化考試成績) 。他希望研究者3個心理變量與4個學術變量間的相關關係。
也就是說,我們要分析
- 變量組x{外向傾向,自我概念,動機水平}
- 變量組y{閱讀成績,寫作成績,數學成績,理科成績}
之間的相關關係。數據如下圖所示:
2.分析
在SPSS25中,選擇:分析→相關→典型相關性,在選項中勾選成對相關性
(備註:SPSS23前的版本沒有這個選項,需要使用自定義宏)
3.結果
此圖反映了各變量間的相關係數,從中可以看出不同變量間的相關程度。
如果組內變量間的相關係數高,說明兩者包含的信息有重疊部分;如果組間變量相關係數高,則說明兩者有一定相關性(- -!)。
此圖給出了典型相關係數及其檢驗,結果表明前兩個典型相關係數是顯著的,因此我們選擇前兩個典型相關變量進行解釋。
具體來說,第一對典型相關變量的相關係數是0.446,p< .001;第二對典型相關變量的相關係數是0.153,p= .025
上圖分別是兩組變量的標準化相關係數和未標準化的相關係數。
根據此圖,可以寫出各典型變量的表達式,如對於第一對典型變量u1和v1:
其標準化的表達式爲(Z外向傾向表示將該變量標準化後的值):
u1 = -0.838*Z外向傾向+0.167*Z自我概念-0.428*Z動機水平
v1 = -0.445*Z閱讀成績-0.536*Z寫作成績-0.183*Z數學成績+0.037*Z理科成績
非標準化的表達式爲
u1 = -1.250*外向傾向+0.237*自我概念-1.249*動機水平
v1 = -0.044*閱讀成績-0.055*寫作成績-0.019*數學成績+0.004*理科成績
PS:再講解一下兩者的一些不同之處:
標準化的係數由於經過標準化,因此係數相互之間是可比的,用處是用於比較不同自變量對應變量的影響程度。比如在set1的標準化係數中,外向傾向的係數是-0.838,自我概念的係數是0.167,因此我們可以認爲外向傾向對成績的影響比自我概念影響更大。
而未標準化的係數因爲每個變量沒有標準化,量綱不一樣,因此不能直接用係數大小比較自變量貢獻程度,它的用處是可以用於計算CCA得分,(直接用係數乘以原始數據)
上圖是冗餘分析的結果,它說明各典型變量對各變量組方差解釋的比例。
以上是個人對典型相關分析學習的總結筆記,如有錯誤,歡迎討論和指正。