PCA:
PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法,可用於提取數據的主要特徵分量。
目的:
在高維數據中找方差最大的方向, 將n維特徵映射到k維上(k < n),k維特徵是全新的正交特徵,也叫主成分。
步驟:
1)將原始數據按列組成n行m列矩陣X;
2)將X的每一行(代表一個屬性字段)進行零均值化,即減去這一行的均值;
3)求出協方差矩陣;
4)求出協方差矩陣的特徵值及對應的特徵向量;
5)按對應特徵值從大到小順序排序,將對應特徵向量按行排列成矩陣,取前k行組成矩陣U;
6)Y=UX即爲降維到k維後的數據;
LDA:
LDA(Linear Discriminate Analysis)把線性分類看成是數據降維的一種應用。
特點:
可以作爲一種特徵抽取的技術;
需要監督信息;
對於不適用於正則化的模型,可以降低因爲緯度災難帶來的過擬合;
目的:
通過最小化類內距離,最大化類間距來找到最優化分類的特徵子空間。
步驟:
1)計算類內散度矩陣;
2)計算類間散度矩陣;
3)計算矩陣;
4) 計算矩陣 ; 的特徵值以及對應的特徵向量;
5) 選擇前k個特徵向量構造一個 d∗k 維的轉換矩陣 W, 其中特徵向量以列的形式排列;
6)對樣本集中的每一個樣本特徵,轉化爲新的樣本;
相同與不同:
PCA | LDA | |
---|---|---|
目的 | 降維 | 降維 |
數據分佈 | 假設數據符合高斯分佈 | 假設數據符合高斯分佈 |
思想 | 矩陣特徵分解思想 | 矩陣特徵分解思想 |
是否有監督 | 無監督 | 有監督 |
降維方式 | 去掉原始數據冗餘的維度 | 選擇一個最佳投影方向,使類內距離更緊湊,類間距離更遠 |
降維維度 | 降低的維度與類別無關 | 最多降到K-1維,K爲類別 |
擬合情況 | 可能會過擬合 |