PCA(主成分分析),Principle Component Ananlysis
如果有很多個樣本數據,需要從這些樣本數據中找出“冗餘”的信息,然後剔除這些冗餘信息,PCA就可以完成這個任務。
將所有的樣本數據
第一步是預處理,要保證數據的均值爲0。那麼
求這個矩陣的協方差矩陣:
當然,我們在使用PCA處理數據之前需要進行白化處理,那麼
然後求出矩陣
可以證明,
那麼,我們就可以據此排除一些次要的分佈方向,保留更重要的分佈方向。
我們保留前k個特徵向量,那麼它們對應的矩陣
如果選擇這k個向量作爲新的座標系,那麼數據點
對數據進行降維:
那麼
這種投影方式可以保證降維的同時,信息量損失最小。
PCA在圖像壓縮中的應用
在圖像中,選取L列作爲訓練樣本,進行PCA降維,假設原始數據爲N維,降維到M維。
爲了保證算法對於圖像的整體亮度改變具有魯棒性,在使用訓練數據之前,需要對每個數據進行零均值處理。
然後,將降維方法應用到圖像的所有列。
那麼,整張圖像就降爲M維,實現了數據壓縮。