PCA和LDA簡介

PCA:

PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法,可用於提取數據的主要特徵分量。

目的:

在高維數據中找方差最大的方向, 將n維特徵映射到k維上(k < n),k維特徵是全新的正交特徵,也叫主成分。

步驟:

1)將原始數據按列組成n行m列矩陣X;
2)將X的每一行(代表一個屬性字段)進行零均值化,即減去這一行的均值;
3)求出協方差矩陣;
4)求出協方差矩陣的特徵值及對應的特徵向量;
5)按對應特徵值從大到小順序排序,將對應特徵向量按行排列成矩陣,取前k行組成矩陣U;
6)Y=UX即爲降維到k維後的數據;

LDA:

LDA(Linear Discriminate Analysis)把線性分類看成是數據降維的一種應用。

特點:

可以作爲一種特徵抽取的技術;
需要監督信息;
對於不適用於正則化的模型,可以降低因爲緯度災難帶來的過擬合;

目的:

通過最小化類內距離,最大化類間距來找到最優化分類的特徵子空間。

步驟:

1)計算類內散度矩陣SwS_{w};
2)計算類間散度矩陣SbS_{b};
3)計算矩陣Sw1SbS_{w}^{-1} S_{b};
4) 計算矩陣 Sw1SbS_{w}^{-1} S_{b}; 的特徵值以及對應的特徵向量;
5) 選擇前k個特徵向量構造一個 d∗k 維的轉換矩陣 W, 其中特徵向量以列的形式排列;
6)對樣本集中的每一個樣本特徵xix_{i},轉化爲新的樣本Yi=WTxiY_{i} = W^{T}x_{i};

相同與不同:

PCA LDA
目的 降維 降維
數據分佈 假設數據符合高斯分佈 假設數據符合高斯分佈
思想 矩陣特徵分解思想 矩陣特徵分解思想
是否有監督 無監督 有監督
降維方式 去掉原始數據冗餘的維度 選擇一個最佳投影方向,使類內距離更緊湊,類間距離更遠
降維維度 降低的維度與類別無關 最多降到K-1維,K爲類別
擬合情況 可能會過擬合
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章