基於SPSS25的典型相關分析(Canonical Correlation Analysis)案例

一、爲什麼要用典型相關分析

典型相關分析研究的是兩組變量之間的關係,如{x1, x2, x3}和{y1, y2, y3}兩組變量之間的關係。
具體來說,變量間的相關關係可以分爲以下幾種:

  • 兩個變量間的線性相關關係,可用簡單相關係數
  • 一個變量與多個變量之間的線性相關關係,可用復相關係數。
  • 多個變量與多個變量間的相關關係,使用典型相關關係

二、典型相關分析的基本原理

典型相關分析在研究兩組變量間的線性相關關係時,將每一組變量作爲一個整體進行分析。它採用類似於主成分分析(PCA)的方法,在每一組變量中都選擇若干個有代表性的綜合指標,這些綜合指標是原始變量的線性組合,代表了原始變量的大部分信息,且兩組綜合指標的相關程度最大。

簡單地說,對於{x1, x2, x3}和{y1, y2, y3}兩組變量,我們先求出能體現x和y最大相關性的一對變量u1,v1:u1是{x1, x2, x3}的線性組合,v1是{y1, y2, y3}的線性組合。

然後再類似的求第二、第三對典型相關變量,然後我們就得到兩組典型相關變量{u1,u2,u3}和{v1,v2,v3}。三對典型相關變量是彼此不相關的,它們反應了變量組x和y之間的相關關係。

當兩組變量的數量不一致時,那麼可提取到的典型變量個數就等於較少數據組的變量個數,如對於{x1, x2, x3}和{y1, y2},可提取的典型變量爲2個。

三、實例分析

1.數據

某個研究人員收集了600名大學新生的三個心理變量,四個學術變量(標準化考試成績) 。他希望研究者3個心理變量與4個學術變量間的相關關係。
也就是說,我們要分析

  • 變量組x{外向傾向,自我概念,動機水平}
  • 變量組y{閱讀成績,寫作成績,數學成績,理科成績}

之間的相關關係。數據如下圖所示:
在這裏插入圖片描述

2.分析

在SPSS25中,選擇:分析→相關→典型相關性,在選項中勾選成對相關性
(備註:SPSS23前的版本沒有這個選項,需要使用自定義宏)
在這裏插入圖片描述

在這裏插入圖片描述

3.結果

在這裏插入圖片描述
此圖反映了各變量間的相關係數,從中可以看出不同變量間的相關程度。
如果組內變量間的相關係數高,說明兩者包含的信息有重疊部分;如果組間變量相關係數高,則說明兩者有一定相關性(- -!)。

在這裏插入圖片描述
此圖給出了典型相關係數及其檢驗,結果表明前兩個典型相關係數是顯著的,因此我們選擇前兩個典型相關變量進行解釋。
具體來說,第一對典型相關變量的相關係數是0.446,p< .001;第二對典型相關變量的相關係數是0.153,p= .025

在這裏插入圖片描述
在這裏插入圖片描述
上圖分別是兩組變量的標準化相關係數和未標準化的相關係數。
根據此圖,可以寫出各典型變量的表達式,如對於第一對典型變量u1和v1:
其標準化的表達式爲(Z外向傾向表示將該變量標準化後的值):

u1 = -0.838*Z外向傾向+0.167*Z自我概念-0.428*Z動機水平
v1 = -0.445*Z閱讀成績-0.536*Z寫作成績-0.183*Z數學成績+0.037*Z理科成績

非標準化的表達式爲

u1 = -1.250*外向傾向+0.237*自我概念-1.249*動機水平
v1 = -0.044*閱讀成績-0.055*寫作成績-0.019*數學成績+0.004*理科成績

PS:再講解一下兩者的一些不同之處:

  • 標準化的係數由於經過標準化,因此係數相互之間是可比的,用處是用於比較不同自變量對應變量的影響程度。比如在set1的標準化係數中,外向傾向的係數是-0.838,自我概念的係數是0.167,因此我們可以認爲外向傾向對成績的影響比自我概念影響更大。

  • 而未標準化的係數因爲每個變量沒有標準化,量綱不一樣,因此不能直接用係數大小比較自變量貢獻程度,它的用處是可以用於計算CCA得分,(直接用係數乘以原始數據)

在這裏插入圖片描述
上圖是冗餘分析的結果,它說明各典型變量對各變量組方差解釋的比例。

以上是個人對典型相關分析學習的總結筆記,如有錯誤,歡迎討論和指正。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章