數據降維方法分類

http://blog.csdn.net/xiaowei_cqu/article/details/7522368

數據降維基本原理是將樣本點從輸入空間通過線性或非線性變換映射到一個低維空間,從而獲得一個關於原數據集緊緻的低維表示。

數據降維工具箱drtoolbox中衆多算法,這裏簡單做個分類。

因爲很多並沒有仔細瞭解,在此次只對八種方法做分類:主成分分析(Principal Component Analysis,PCA)、線性判別分析(Linear Discriminant Analysis,LDA)、等距映射(Isomap)、局部線性嵌入(Locally Linear Embedding,LLE)、Laplacian 特徵映射(Laplacian Eigenmaps)、局部保留投影(Local Preserving Projection,LPP)、局部切空間排列(Local Tangent Space Alignment,LTSA)、最大方差展開( Maximum Variance Unfolding,MVU)

線性/非線性

線性降維是指通過降維所得到的低維數據能保持高維數據點之間的線性關係。線性降維方法主要包括PCA、LDA、LPP(LPP其實是Laplacian Eigenmaps的線性表示);非線性降維一類是基於核的,如KPCA,此處暫不討論;另一類就是通常所說的流形學習:從高維採樣數據中恢復出低維流形結構(假設數據是均勻採樣於一個高維歐式空間中的低維流形),即找到高維空間中的低維流形,並求出相應的嵌入映射。非線性流形學習方法有:Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU
整體來說,線性方法計算塊,複雜度低,但對複雜的數據降維效果較差。

監督/非監督

監督式和非監督式學習的主要區別在於數據樣本是否存在類別信息。非監督降維方法的目標是在降維時使得信息的損失最小,如PCA、LPP、Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU;監督式降維方法的目標是最大化類別間的辨別信,如LDA。事實上,對於非監督式降維算法,都有相應的監督式或半監督式方法的研究。

全局/局部

局部方法僅考慮樣品集合的局部信息,即數據點與臨近點之間的關係。局部方法以LLE爲代表,還包括Laplacian Eigenmaps、LPP、LTSA。
全局方法不僅考慮樣本幾何的局部信息,和考慮樣本集合的全局信息,及樣本點與非臨近點之間的關係。全局算法有PCA、LDA、Isomap、MVU。
由於局部方法並不考慮數據流形上相距較遠的樣本之間的關係,因此,局部方法無法達到“使在數據流形上相距較遠的樣本的特徵也相距較遠”的目的。

以下是對一組三維數據(900樣本)降到一維,應用八種算法的時間對比:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章