典型相關分析原理（CCA）

原創

一个人旅行*-*

2020-02-20 21:56

CCA典型相關分析
（canonical correlation analysis）利用綜合變量對之間的相關關係來反映兩組指標之間的整體相關性的多元統計分析方法。它的基本原理是：爲了從總體上把握兩組指標之間的相關關係，分別在兩組變量中提取有代表性的兩個綜合變量U1和V1（分別爲兩個變量組中各變量的線性組合），利用這兩個綜合變量之間的相關關係來反映兩組指標之間的整體相關性。

Canonical Correlation Analysis典範相關分析/Canonical Correspondence Analysis典範對應分析

簡單相關係數描述兩組變量的相關關係的缺點:只是孤立考慮單個X與單個Y間的相關，沒有考慮X、Y變量組內部各變量間的相關。兩組間有許多簡單相關係數，使問題顯得複雜，難以從整體描述。典型相關是簡單相關、多重相關的推廣。典型相關是研究兩組變量之間相關性的一種統計分析方法。也是一種降維技術。

1936年，Hotelling提出典型相關分析。考慮兩組變量的線性組合, 並研究它們之間的相關係數p(u,v).在所有的線性組合中, 找一對相關係數最大的線性組合, 用這個組合的單相關係數來表示兩組變量的相關性, 叫做兩組變量的典型相關係數, 而這兩個線性組合叫做一對典型變量。在兩組多變量的情形下, 需要用若干對典型變量才能完全反映出它們之間的相關性。下一步, 再在兩組變量的與u1,v1不相關的線性組合中, 找一對相關係數最大的線性組合, 它就是第二對典型變量, 而且p(u2,v2)就是第二個典型相關係數。這樣下去, 可以得到若干對典型變量, 從而提取出兩組變量間的全部信息。
典型相關分析的實質就是在兩組隨機變量中選取若干個有代表性的綜合指標（變量的線性組合）, 用這些指標的相關關係來表示原來的兩組變量的相關關係。這在兩組變量的相關性分析中, 可以起到合理的簡化變量的作用; 當典型相關係數足夠大時, 可以像迴歸分析那樣, 由- 組變量的數值預測另一組變量的線性組合的數值。

典型關聯分析（Canonical Correlation Analysis）

1. 問題

在線性迴歸中，我們使用直線來擬合樣本點，尋找n維特徵向量X和輸出結果（或者叫做label）Y之間的線性關係。其中，。然而當Y也是多維時，或者說Y也有多個特徵時，我們希望分析出X和Y的關係。

當然我們仍然可以使用迴歸的方法來分析，做法如下：

假設，，那麼可以建立等式Y=AX如下

其中，形式和線性迴歸一樣，需要訓練m次得到m個。

這樣做的一個缺點是，Y中的每個特徵都與X的所有特徵關聯，Y中的特徵之間沒有什麼聯繫。

我們想換一種思路來看這個問題，如果將X和Y都看成整體，考察這兩個整體之間的關係。我們將整體表示成X和Y各自特徵間的線性組合，也就是考察和之間的關係。

這樣的應用其實很多，舉個簡單的例子。我們想考察一個人解題能力X（解題速度，解題正確率）與他/她的閱讀能力Y（閱讀速度，理解程度）之間的關係，那麼形式化爲：

和

然後使用Pearson相關係數

來度量u和v的關係，我們期望尋求一組最優的解a和b，使得Corr(u, v)最大，這樣得到的a和b就是使得u和v就有最大關聯的權重。

到這裏，基本上介紹了典型相關分析的目的。

2. CCA表示與求解

給定兩組向量和（替換之前的x爲，y爲），維度爲，維度爲，默認。形式化表示如下：

是x的協方差矩陣；左上角是自己的協方差矩陣；右上角是；左下角是，也是的轉置；右下角是的協方差矩陣。

與之前一樣，我們從和的整體入手，定義

我們可以算出u和v的方差和協方差：

上面的結果其實很好算，推導一下第一個吧：

最後，我們需要算Corr(u,v)了

我們期望Corr(u,v)越大越好，關於Pearson相關係數，《數據挖掘導論》給出了一個很好的圖來說明：

橫軸是u，縱軸是v，這裏我們期望通過調整a和b使得u和v的關係越像最後一個圖越好。其實第一個圖和最後一個圖有聯繫的，我們可以調整a和b的符號，使得從第一個圖變爲最後一個。

接下來我們求解a和b。

回想在LDA中，也得到了類似Corr(u,v)的公式，我們在求解時固定了分母，來求分子（避免a和b同時擴大n倍仍然符號解條件的情況出現）。這裏我們同樣這麼做。

這個優化問題的條件是：

Maximize

Subject to:

求解方法是構造Lagrangian等式，這裏我簡單推導如下：

求導，得

令導數爲0後，得到方程組：

第一個等式左乘，第二個左乘，再根據，得到

也就是說求出的即是Corr(u,v)，只需找最大即可。

讓我們把上面的方程組進一步簡化，並寫成矩陣形式，得到

寫成矩陣形式

令

那麼上式可以寫作：

顯然，又回到了求特徵值的老路上了，只要求得的最大特徵值，那麼Corr(u,v)和a和b都可以求出。

在上面的推導過程中，我們假設了和均可逆。一般情況下都是可逆的，只有存在特徵間線性相關時會出現不可逆的情況，在本文最後會提到不可逆的處理辦法。

再次審視一下，如果直接去計算的特徵值，複雜度有點高。我們將第二個式子代入第一個，得

這樣先對求特徵值和特徵向量，然後根據第二個式子求得b。

待會舉個例子說明求解過程。

假設按照上述過程，得到了最大時的和。那麼和稱爲典型變量（canonical variates），即是u和v的相關係數。

最後，我們得到u和v的等式爲：

我們也可以接着去尋找第二組典型變量對，其最優化條件是

Maximize

Subject to:

其實第二組約束條件就是。

計算步驟同第一組計算方法，只不過是取的第二大特徵值。

得到的和其實也滿足

即

總結一下，i和j分別表示和得到結果

3. CCA計算例子

我們回到之前的評價一個人解題和其閱讀能力的關係的例子。假設我們通過對樣本計算協方差矩陣得到如下結果：

然後求，得

這裏的A和前面的中的A不是一回事（這裏符號有點亂，不好意思）。

然後對A求特徵值和特徵向量，得到

然後求b，之前我們說的方法是根據求b，這裏，我們也可以採用類似求a的方法來求b。

回想之前的等式

我們將上面的式子代入下面的，得

然後直接對求特徵向量即可，注意和的特徵值相同，這個可以自己證明下。

不管使用哪種方法，

這裏我們得到a和b的兩組向量，到這還沒完，我們需要讓它們滿足之前的約束條件

這裏的應該是我們之前得到的VecA中的列向量的m倍，我們只需要求得m，然後將VecA中的列向量乘以m即可。

這裏的是VecA的列向量。

因此最後的a和b爲：

第一組典型變量爲

相關係數

第二組典型變量爲

相關係數

這裏的（解題速度），（解題正確率），（閱讀速度），（閱讀理解程度）。他們前面的係數意思不是特徵對單個u或v的貢獻比重，而是從u和v整體關係看，當兩者關係最密切時，特徵計算時的權重。

一個人旅行*-*

發佈了46 篇原創文章 · 獲贊 77 · 訪問量 21萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

機器學習-集成學習(ensemble learning)

集成學習ensemble learning：本身不是一個單獨的機器學習算法，而是通過構建並結合多個機器學習器來完成學習任務。可以用兩句話形容： 1、“三個臭皮匠頂個諸葛亮”：一堆弱分類器的組合可以成爲一個強分類器； 2、“知錯能

2020-07-05 17:43:16

Cox比例風險模型與R實現

Cox比例風險模型（cox proportional-hazards model），簡稱Cox模型是由英國統計學家D.R.Cox(1972)年提出的一種半參數迴歸模型。該模型以生存結局和生存時間爲應變量，可同時分析衆多因素對生存期的影

一个人旅行*-*

2020-06-30 21:01:17

機器學習實例----美國人口收入分析

Sklearn–(1) 原創不易，如需轉載，請標明出處。首先通過官網的圖片簡單瞭解Sklearn：可以看到他的主要作用有：分類，迴歸，聚類，降維，模型選擇，預處理。今天我將利用Adult數據集進行演示。 Adult 該數據

2020-06-29 07:05:23

五種常用的異常值檢測方法（均方差、箱形圖、DBScan 聚類、孤立森林、Robust Random Cut Forest）

https://blog.csdn.net/u013328485/article/details/95043012

满腹的小不甘

2020-06-28 16:15:41

隨機遊走算法

隨機遊走（Random Walk，縮寫爲 RW），又稱隨機遊動或隨機漫步，是一種數學統計模型，它是一連串的軌跡所組成，其中每一次都是隨機的。它能用來表示不規則的變動形式，如同一個人酒後亂步，所形成的隨機過程記錄。因此，它是記錄隨機活動的基

满腹的小不甘

2020-06-28 16:15:37

相關分析與迴歸分析（一）

相關分析和迴歸分析都是研究變量間相互關係，測定它們聯繫的緊密程度、揭示其變化的具體形式和規律性的統計方法。 1、涵義（1）相關分析是對具有相關關係的變量之間的關係密切程度進行分析研究的統計方法；（2）迴歸分

2020-06-27 03:45:47

結構化數據（structured），半結構化數據(semi-structured)，非結構化數據(unstructured)的定義和區別

相對於結構化數據（即行數據，存儲在數據庫裏，可以用二維表結構來邏輯表達實現的數據）而言，不方便用數據庫二維邏輯表來表現的數據即稱爲非結構化數據，包括

2020-06-21 06:36:16

MapReduce 和 HDFS介紹

-------------------------------- 原文鏈接：http://blog.csdn.net/amuseme_lu/article/details/5616198 Overview * 爲什麼要用Mapred

2020-06-21 06:36:16

2019第十六屆研究生數學建模成績分析

2019研究生數學建模成績分析，主要從以下幾個方面進行分析建模成績數據來源：2019研究生數學建模成績彙總 1. 按‘隊長所在單位’統計每個學校的獲獎數量，並畫出柱狀圖展示 2. 按每個學校獲獎人數進行統計，並畫出柱狀圖進行展

2020-06-17 06:46:01

Python實現統計學的各種檢驗

1.使用python中的Numpy進行t檢驗 http://www.atyun.com/7476.html 2.scipy中的卡方檢驗 http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A

2020-06-17 06:46:01

假設檢驗之T檢驗

假設檢驗也叫顯著性檢驗，是以小概率反證法的邏輯進行推理，是判斷假設是否成立的統計方法。一般，首先假設樣本對應的總體參數或分佈是與已知的總體參數或分佈相同的，然後根據統計量的分佈規律來分析樣本數據，利用樣本信息判斷是否支持當前假設，並

一只爱喝酸奶的猫

2020-06-15 03:52:17

關於AMOS運行時出現的一些ERROR的解決方案

在進行結構方程式分析的時候，想必有些童鞋會遇到類似於：無法導入SPSS數據和 “system.argumentexception the path is not of a legal form. at system.io.path.no

2020-06-15 00:20:49

多維尺度分析（Multidimensional scaling，MDS）及SPSS實現

2020-06-01 17:58:36

Python統計分析-獨立樣本t檢驗

天马行空_ljt

2020-05-30 23:45:50

Oracle裏的優化器

2020-05-14 18:48:03

24小時熱門文章

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

最新文章

最新評論文章