對同一個體進行多項觀察時,必定涉及多個隨機變量X1,X2,…,Xp,它們都是的相關性, 一時難以綜合。這時就需要藉助主成分分析 (principal component analysis)來概括諸多信息的主要方面。我們希望有一個或幾個較好的綜合指標來概括信息,而且希望綜合指標互相獨立地各代表某一方面的性質。 任何一個度量指標的好壞除了可靠、真實之外,還必須能充分反映個體間的變異。如果有一項指標,不同個體的取值都大同小異,那麼該指標不能用來區分不同的個體。由這一點來看,一項指標在個體間的變異越大越好。因此我們把“變異大”作爲“好”的標準來尋求綜合指標。 1.主成分的一般定義 設有隨機變量X1,X2,…,Xp, 其樣本均數記爲 , ,…, ,樣本標準差記爲S1,S2,…,Sp。首先作標準化變換 我們有如下的定義: (1) 若C1=a11x1+a12x2+ … +a1pxp, ,且使 Var(C1)最大,則稱C1爲第一主成分; (2) 若C2=a21x1+a22x2+…+a2pxp, ,(a21,a22,…,a2p)垂直於(a11,a12,…,a1p),且使Var(C2)最大,則稱C2爲第二主成分; (3) 類似地,可有第三、四、五…主成分,至多有p個。
2. 主成分的性質 主成分C1,C2,…,Cp具有如下幾個性質: (1) 主成分間互不相關,即對任意i和j,Ci 和Cj的相關係數 Corr(Ci,Cj)=0 i ¹ j (2) 組合係數(ai1,ai2,…,aip)構成的向量爲單位向量,
(3) 各主成分的方差是依次遞減的, 即 Var(C1)≥Var(C2)≥…≥Var(Cp) (4) 總方差不增不減, 即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 這一性質說明,主成分是原變量的線性組合,是對原變量信息的一種改組,主成分不增加總信息量,也不減少總信息量。 (5) 主成分和原變量的相關係數 Corr(Ci,xj)=aij =aij (6) 令X1,X2,…,Xp的相關矩陣爲R, (ai1,ai2,…,aip)則是相關矩陣R的第i個特徵向量(eigenvector)。而且,特徵值li就是第i主成分的方差, 即 Var(Ci)= li 其中li爲相關矩陣R的第i個特徵值(eigenvalue) l1≥l2≥…≥lp≥0 3. 主成分的數目的選取 前已指出,設有p個隨機變量,便有p個主成分。由於總方差不增不減,C1,C2等前幾個綜合變量的方差較大,而Cp,Cp-1等後幾個綜合變量的方差較小, 嚴格說來,只有前幾個綜合變量才稱得上主(要)成份,後幾個綜合變量實爲“次”(要)成份。實踐中總是保留前幾個,忽略後幾個。 保留多少個主成分取決於保留部分的累積方差在方差總和中所佔百分比(即累計貢獻率),它標誌着前幾個主成分概括信息之多寡。實踐中,粗略規定一個百分比便可決定保留幾個主成分;如果多留一個主成分,累積方差增加無幾,便不再多留。 4.主成分迴歸 主成分分析本身往往並不是目的,而是達到目的的一種手段。因此,它多用在大型研究項目的某個中間環節。例如,把它用在多重回歸中,便產生了主成分迴歸。另外,它還可以用於聚類、判別分析等。本節主要介紹主成分迴歸。 在多重回歸曾指出,當自變量間高度相關時,某些迴歸參數的估計值極不穩定,甚至出現有悖常理、難以解釋的情形。這時,可先採用主成分分析產生若干主成分,它們必定會將相關性較強的變量綜合在同一個主成分中,而不同的主成分又是互相獨立的。只要多保留幾個主成分,原變量的信息不致過多損失。然後,以這些主成分爲自變量進行多重回歸就不會再出現共線性的困擾。如果原有p個自變量X1,X2,…,Xp,那麼,採用全部p個主成分所作迴歸完全等價於直接對原變量的迴歸;採用一部分主成分所作迴歸雖不完全等價於對原變量的迴歸,但往往能擺脫某些虛假信息,而出現較合理的結果。 以上思路也適用於判別分析,當自變量高度相關時,直接作判別分析同樣有多重共線性問題,可先計算自變量的主成分,然後通過主成分估計判別函數。 相關英文連接 http://ordination.okstate.edu/PCA.htm 引用: http://hi.baidu.com/vandyliu/blog/item/9d889e0f4d2525ef37d122ee.html |
主成分分析方法
主成分分析方法(PCA算法)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.