機器學習方法簡介(4)--主成分分析(PCA)

顧名思義,主成分分析方法是找出原始數據中的主要成分,用原始數據的主要成分代替原始數據達到降維的效果。

那麼我們如果尋找主成分呢?我們可以試圖在樣本空間中找到一個超平面,使得樣本點到這個超平面的距離足夠近,或者說樣本點在這個超平面上的投影能儘可能的分開,這個超平面的方向即爲主成分。

經過推導可知(推導過程省略),假如我們需要將n維樣本數據映射爲{n}'維的主成分數據,我們找到協方差矩陣XX^{T}{n}'個最大的特徵向量和它們對應的特徵空間。它們組成的矩陣W就是我們需要的矩陣,將樣本數據投影到W上可以得到降維後的數據。

PCA算法流程:

輸入:n維樣本集D=(x^{(1)},x^{(2)},...,x^{(m)}),要降維到的維數n'.

輸出:降維後的樣本集D′

1) 對所有的樣本進行中心化:x^{(i)} = x^{(i)} - \frac{1}{m}\sum_{j=1}^{m}x^{(j)}

2) 計算樣本的協方差矩陣XX^{T}

3) 對矩陣XX^{T}進行特徵值分解

4)取出最大的n'個特徵值對應的特徵向量(w_{1},w_{2},...,w_{{n}'}), 將所有的特徵向量標準化後,組成特徵向量矩陣W。

5)對樣本集中的每一個樣本x^{(1)},轉化爲新的樣本z^{(i)} = W^{T} x^{(i)}

6) 得到輸出樣本集D′=(z^{(1)},z^{(2)},...,z^{(m)})

PCA算法的主要優點

1)僅僅需要以方差衡量信息量,不受數據集以外的因素影響。 

2)各主成分之間正交,可消除原始數據成分間的相互影響的因素。

3)計算方法簡單,主要運算是特徵值分解,易於實現。

PCA算法的主要缺點

1)主成分各個特徵維度的含義具有一定的模糊性,不如原始樣本特徵的解釋性強。

2)方差小的非主成分也可能含有對樣本差異的重要信息,因降維丟棄可能對後續數據處理有影響。


引用《主成分分析(PCA)原理總結

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章