典型相關分析
(一)引入
典型相關分析(Canonical Correlation Analysis)是研究兩組變量之間相關關係的一種多元統計方法。他能夠揭示出兩組變量之間的內在聯繫。
我們知道,在一元統計分析中,用相關係數來衡量兩個隨機變量的線性相關關係,用複相關係數研究一個隨機變量與多個隨機變量的線性相關關係。然而,這些方法均無法用於研究兩組變量之間的相關關係,於是提出了CCA。其基本思想和主成分分析非常相似。首先,在每組變量中尋找出變量的線性組合,使得兩組的線性組合之間具有最大的相關係數;然後選取和已經挑選出的這對線性組合不相關的另一對線性組合,並使其相關係數最大,如此下去,直到兩組變量的相關性被提取完畢爲止。被選出的線性組合配對稱爲典型變量,它們的相關係數稱爲典型相關係數。
(二)分析
設有兩組隨機變量X=(x1,x2,⋯,xp)′和Y=(y1,y2,⋯,yq)′,不妨設p≤q。設第一組變量均值爲EX=μ1,方差爲Var(X)=cov(X,X)=Σ11。第二組變量均值爲EY=μ2,方差爲Var(Y)=cov(Y,Y)=Σ22。第一組與第二組變量的協方差矩陣爲cov(X,Y)=Σ12=Σ′21。
分別對兩組變量做線性組合:
UV=a1x1+a2x2+⋯+apxp=a′X=b1x1+b2x2+⋯+bqyq=b′Y(1)(2)
所以U,V的方差,協方差,相關係數爲:
Var(U)=a′cov(X,X)a=a′Σ11aVar(V)=b′cov(Y,Y)b=b′Σ22bcov(U,V)=a′cov(X,Y)b=a′Σ12bρ=corr(U,V)=a′Σ12ba′Σ11a−−−−−√b′Σ12b−−−−−√(3)(4)(5)(6)
其中U,V稱爲典型變量,它們之間的相關係數ρ稱爲典型相關係數。
CCA要解決的問題是,在所有線性組合U和V中選取典型相關係數最大的那對,即選取a(1),b(1)使U1=(a(1))′X與V1=(b(1))′Y之間的相關係數最大,這裏(U1,V1)稱爲第一對典型相關變量;然後在選取a(2),b(2)使得U1=(a(2))′X,V2(b(2))′Y,在與U1,V1不相關的情況下,使得(U2,V2)的相關係數最大,稱爲第二對典型相關變量;如此繼續下去,直到所有分別與(U1,V1),(U2,V2),⋯,(Up−1,Vp−1)都不相關的線性組合(Up,Vp)爲止,此時p爲X與Y之間的協方差矩陣的秩。由上面的分析可得模型:
maxρ=a′Σ12ba′Σ11a−−−−−√b′Σ22b−−−−−√(7)
由於收縮U和V的值並不會影響ρ,故我們可引入限制條件a′Σ11a=1,b′Σ22b=1將模型轉化爲:
maxs.t.a′Σ12ba′Σ11a=1b′Σ22b=1(8)
引入Lagrange乘子:
L(a,b,λ,ν)=a′Σ12b−λ2(a′Σ11a−1)−ν2(b′Σ22b−1)(9)
對Lagrange函數9求導得:
∂L∂a=Σ12b−λΣ11a=0(10)
∂L∂b=Σ21a−νΣ22b=0(11)
將式子10左乘a′,式子11左乘b′得:
a′Σ12b−λa′Σ11ab′Σ21a−νb′Σ22b=0=0
又因爲(a′Σ12b)′=b′Σ21a⟹λa′Σ11a=νb′Σ22b。由限制條件知:λ=ν=ρ=a′Σ12b,即λ的值就是線性組合U和V的相關係數。我們重新將式子10和式子11寫成:
−λΣ11a+Σ12bΣ21a−λΣ22b=0=0(12)(13)
然後將式子13左乘Σ12Σ−122得:
Σ12Σ−122Σ21a=λΣ12b(14)
結合式子12得:
Σ12Σ−122Σ21a=λ2Σ11a⟹(Σ12Σ−122Σ21−λ2Σ11)a=0(15)
同理,將式子12左乘Σ21Σ−111,並將式子13代入式子12得:
(Σ21Σ−111Σ12−λ2Σ22)b=0(16)
將Σ−111左乘式子15,Σ−122左乘式子16得:
{(Σ−111Σ12Σ−122Σ21−λ2)a=0(Σ−122Σ21Σ−111Σ12−λ2)b=0≜{Aa=λ2aBb=λ2b(17)
說明:λ2既是矩陣A也是矩陣B的特徵值,a與b分別是對應的特徵向量。所以我們的問題轉化成求矩陣A,B的最大特徵值對應的特徵向量,而特徵值的平方根λ√爲相關係數,從而求出第一對典型相關變量。
此時,我們可以得到如下的猜想:是否矩陣A,B的所有非零特徵值的平方跟都會是其對應的典型相關係數?接下去,我們來證明如下猜想:
設λ21≥λ22≥⋯≥λ2p>0爲A,B的特徵值(p爲矩陣Σ12的秩),其對應的特徵向量爲a(1),a(2),⋯,a(p)和b(1),b(2),⋯,b(p),於是得到p對線性組合:
U1=(a(1))′XV1=(b(1))′YU2=(a(2))′XV2=(b(2))′Y⋯⋯Up=(a(p))′XVp=(b(p))′Y(18)
可以證明(U1,V1),(U2,V2),⋯,(Up,Vp)就是其前p對典型變量,λ1≥λ2≥⋯≥λp爲其典型相關係數。
首先,在求出第一對典型變量的基礎上求第二對典型變量。由上述分析我們可以知道該模型爲:
maxs.t.(a(2))′Σ12b(2)(a(2))′Σ11a(2)=1(b(2))′Σ22b(2)=1(a(1))′Σ11a(2)=0(b(1))′Σ22b(2)=0(19)(20)
其中限制19和20是由於第二對典型變量必須與第一對典型變量無關。其Lagrange方程以及相應的偏導爲:
L(a(1),b(1),a(2),b(2))=(a(2))′Σ12b(2)−λ2((a(2))′Σ11a(2)−1)−ν2((b(2))′Σ22b(2)−1)+γ(a(1))′Σ11a(2)+β(b(1))′Σ22b(2)
∂L∂a(2)∂L∂b(2)∂L∂a1∂L∂b(1)=Σ12b(2)−λΣ11a(2)+γΣ11a(1)=0=Σ21a(2)−νΣ22b(2)+βΣ22b(1)=0=γΣ11a(2)=0=βΣ22b(2)=0(21)(22)(23)(24)
將(a(2))′左乘式子21,(b(2))′左乘式子22得:
(a(2))′Σ12b(2)−λ(a(2))′Σ11a(2)+γ(a(2))′Σ11a(1)=0(b(2))′Σ21a(2)−ν(b(2))′Σ22b(2)+β(b(2))′Σ22b(1)=0(25)(26)
將(a(1))′左乘式子23,(b(2))′左乘式子24得:
(a(2))′Σ11a(1)=0(b(2))′Σ22b(2)=0(27)(28)
將式子27和式子28代入式子25和26得:
(a(2))′Σ12b(2)−λ(a(2))′Σ11a(2)=0(b(2))′Σ21a(2)−ν(b(2))′Σ22b(2)=0(29)(30)
其中式子29和式子30與式子10和式子11有相同的形式,只是a,b換成a(2),b(2),故同樣可以得到:
{Aa(2)=λ2a(2)Bb(2)=λ2b(2)(31)
此時a(2)≠a,b(2)≠b,否則不滿足限制19和20,所以最大值爲第二大特徵值。以此類推,我們即可證明上述猜想。
注意:我們在求解上述普通特徵值方程Aa=λ2a時,由於A=Σ−111Σ12Σ−122Σ21而求逆過程的計算量大,精度低,故我們可以將其中的對稱矩陣Σ11進行Cholesky分解,即Σ11=R1R1′,其中R1爲下三角矩陣。於是方程可化爲對稱矩陣的求特徵值問題:R1−1Σ12Σ−122Σ21(R1−1)′ux=λ2ux,其中ux=R1′a。