典型相關分析(Canonical Correlation Analysis, CCA)

典型相關分析

 (一)引入

     典型相關分析(Canonical Correlation Analysis)是研究兩組變量之間相關關係的一種多元統計方法。他能夠揭示出兩組變量之間的內在聯繫。

    我們知道,在一元統計分析中,用相關係數來衡量兩個隨機變量的線性相關關係,用複相關係數研究一個隨機變量與多個隨機變量的線性相關關係。然而,這些方法均無法用於研究兩組變量之間的相關關係,於是提出了CCA。其基本思想和主成分分析非常相似。首先,在每組變量中尋找出變量的線性組合,使得兩組的線性組合之間具有最大的相關係數;然後選取和已經挑選出的這對線性組合不相關的另一對線性組合,並使其相關係數最大,如此下去,直到兩組變量的相關性被提取完畢爲止。被選出的線性組合配對稱爲典型變量,它們的相關係數稱爲典型相關係數。

(二)分析

    設有兩組隨機變量X=(x1,x2,,xp)Y=(y1,y2,,yq),不妨設pq。設第一組變量均值爲EX=μ1,方差爲Var(X)=cov(X,X)=Σ11。第二組變量均值爲EY=μ2,方差爲Var(Y)=cov(Y,Y)=Σ22。第一組與第二組變量的協方差矩陣爲cov(X,Y)=Σ12=Σ21

    分別對兩組變量做線性組合:

UV=a1x1+a2x2++apxp=aX=b1x1+b2x2++bqyq=bY(1)(2)

所以U,V的方差,協方差,相關係數爲:

Var(U)=acov(X,X)a=aΣ11aVar(V)=bcov(Y,Y)b=bΣ22bcov(U,V)=acov(X,Y)b=aΣ12bρ=corr(U,V)=aΣ12baΣ11abΣ12b(3)(4)(5)(6)

其中U,V稱爲典型變量,它們之間的相關係數ρ稱爲典型相關係數。

    CCA要解決的問題是,在所有線性組合UV中選取典型相關係數最大的那對,即選取a(1),b(1)使U1=(a(1))XV1=(b(1))Y之間的相關係數最大,這裏(U1,V1)稱爲第一對典型相關變量;然後在選取a(2),b(2)使得U1=(a(2))X,V2(b(2))Y,在與U1,V1不相關的情況下,使得(U2,V2)的相關係數最大,稱爲第二對典型相關變量;如此繼續下去,直到所有分別與(U1,V1),(U2,V2),,(Up1,Vp1)都不相關的線性組合(Up,Vp)爲止,此時pXY之間的協方差矩陣的秩。由上面的分析可得模型:

maxρ=aΣ12baΣ11abΣ22b(7)

由於收縮UV的值並不會影響ρ,故我們可引入限制條件aΣ11a=1,bΣ22b=1將模型轉化爲:

maxs.t.aΣ12baΣ11a=1bΣ22b=1(8)

引入Lagrange乘子:

L(a,b,λ,ν)=aΣ12bλ2(aΣ11a1)ν2(bΣ22b1)(9)

對Lagrange函數9求導得:

La=Σ12bλΣ11a=0(10)

Lb=Σ21aνΣ22b=0(11)

將式子10左乘a,式子11左乘b得:

aΣ12bλaΣ11abΣ21aνbΣ22b=0=0

 又因爲(aΣ12b)=bΣ21aλaΣ11a=νbΣ22b。由限制條件知:λ=ν=ρ=aΣ12b,即λ的值就是線性組合UV的相關係數。我們重新將式子10和式子11寫成:

λΣ11a+Σ12bΣ21aλΣ22b=0=0(12)(13)

然後將式子13左乘Σ12Σ122得:

Σ12Σ122Σ21a=λΣ12b(14)

結合式子12得:

Σ12Σ122Σ21a=λ2Σ11a(Σ12Σ122Σ21λ2Σ11)a=0(15)

同理,將式子12左乘Σ21Σ111,並將式子13代入式子12得:

(Σ21Σ111Σ12λ2Σ22)b=0(16)

Σ111左乘式子15Σ122左乘式子16得:

{(Σ111Σ12Σ122Σ21λ2)a=0(Σ122Σ21Σ111Σ12λ2)b=0{Aa=λ2aBb=λ2b(17)

說明:λ2既是矩陣A也是矩陣B的特徵值,ab分別是對應的特徵向量。所以我們的問題轉化成求矩陣A,B的最大特徵值對應的特徵向量,而特徵值的平方根λ爲相關係數,從而求出第一對典型相關變量。

    此時,我們可以得到如下的猜想:是否矩陣A,B的所有非零特徵值的平方跟都會是其對應的典型相關係數?接下去,我們來證明如下猜想:

λ21λ22λ2p>0A,B的特徵值(p爲矩陣Σ12的秩),其對應的特徵向量爲a(1),a(2),,a(p)b(1),b(2),,b(p),於是得到p對線性組合:

U1=(a(1))XV1=(b(1))YU2=(a(2))XV2=(b(2))YUp=(a(p))XVp=(b(p))Y(18)

可以證明(U1,V1),(U2,V2),,(Up,Vp)就是其前p對典型變量,λ1λ2λp爲其典型相關係數。

首先,在求出第一對典型變量的基礎上求第二對典型變量。由上述分析我們可以知道該模型爲:

maxs.t.(a(2))Σ12b(2)(a(2))Σ11a(2)=1(b(2))Σ22b(2)=1(a(1))Σ11a(2)=0(b(1))Σ22b(2)=0(19)(20)

其中限制1920是由於第二對典型變量必須與第一對典型變量無關。其Lagrange方程以及相應的偏導爲:

L(a(1),b(1),a(2),b(2))=(a(2))Σ12b(2)λ2((a(2))Σ11a(2)1)ν2((b(2))Σ22b(2)1)+γ(a(1))Σ11a(2)+β(b(1))Σ22b(2)

La(2)Lb(2)La1Lb(1)=Σ12b(2)λΣ11a(2)+γΣ11a(1)=0=Σ21a(2)νΣ22b(2)+βΣ22b(1)=0=γΣ11a(2)=0=βΣ22b(2)=0(21)(22)(23)(24)

(a(2))左乘式子21(b(2))左乘式子22得:

(a(2))Σ12b(2)λ(a(2))Σ11a(2)+γ(a(2))Σ11a(1)=0(b(2))Σ21a(2)ν(b(2))Σ22b(2)+β(b(2))Σ22b(1)=0(25)(26)

(a(1))左乘式子23(b(2))左乘式子24得:

(a(2))Σ11a(1)=0(b(2))Σ22b(2)=0(27)(28)

將式子27和式子28代入式子2526得:

(a(2))Σ12b(2)λ(a(2))Σ11a(2)=0(b(2))Σ21a(2)ν(b(2))Σ22b(2)=0(29)(30)

其中式子29和式子30與式子10和式子11有相同的形式,只是a,b換成a(2),b(2),故同樣可以得到:

{Aa(2)=λ2a(2)Bb(2)=λ2b(2)(31)

此時a(2)a,b(2)b,否則不滿足限制1920,所以最大值爲第二大特徵值。以此類推,我們即可證明上述猜想。

注意:我們在求解上述普通特徵值方程Aa=λ2a時,由於A=Σ111Σ12Σ122Σ21而求逆過程的計算量大,精度低,故我們可以將其中的對稱矩陣Σ11進行Cholesky分解,即Σ11=R1R1,其中R1爲下三角矩陣。於是方程可化爲對稱矩陣的求特徵值問題:R11Σ12Σ122Σ21(R11)ux=λ2ux,其中ux=R1a

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章