降維
dimensionality reduction
有幾個原因去降維
- 數據壓縮 data compression
使得數據佔用較小的空間,還能對學習算法進行加速。 - 可視化數據
數據壓縮,用一維取代二維,減少冗餘redeuces the redundancy
用二維取代三維
可視化數據
如果將數據可視化,可以更好的瞭解數據。
50維數據
50維 2維,但是其可視化的數據沒有實際的物理意義
降維的算法只負責減少維數,而新產生的特徵的物理意義則需要由我們自己去發現了。
主成分分析 PCA
principal component analysis
最主要的降維操作,壓縮數據
在PCA中,我們要找到一個方向向量(Vector direction),把所有的數據都投射到該向量上,使投射平均均方誤差能儘可能地小。
預處理非常關鍵:
- 執行均值歸一化。
- 根據數據情況,可能也要執行特徵縮放。