機器學習降維算法對比分析(待補充)

主要的方法有屬性(特徵)選擇,線性映射和非線性映射方法三大類。

一、屬性(特徵)選擇

缺失值比率:如果數據集的缺失值太多,我們可以用這種方法減少變量數。

低方差濾波:這個方法可以從數據集中識別和刪除常量變量,方差小的變量對目標變量影響不大,所以可以放心刪去。

高相關濾波:具有高相關性的一對變量會增加數據集中的多重共線性,所以用這種方法刪去其中一個是有必要的。
隨機森林
反向特徵消除
前向特徵選擇

二、線性映射

2.1PCA
主成分分析(PCA) 是最常用的線性降維方法,它的目標是通過某種線性投影,將高維的數據映射到低維的空間中表示,並期望在所投影的維度上數據的方差最大(選取特徵值最高的k個特徵向量來表示一個矩陣),以此使用較少的數據維度,同時保留住較多的原數據點的特性。 是將原空間變換到特徵向量空間內,數學表示爲AX = γX。

另一種理解思路:求特徵向量的關係,就是把矩陣A所代表的空間,進行正交分解,使得A的向量集合可以表示爲每個向量a在各個特徵向量上面的投影長度。例如A是mn的矩陣,n>m,那麼特徵向量就是m個(因爲秩最大是m),n個行向量在每個特徵向量E上面有投影,其特徵值v就是權重。那麼每個行向量現在就可以寫爲Vn=(E1v1n,E2v2n…Emvmn),矩陣變成了方陣。如果矩陣的秩更小,矩陣的存儲還可以壓縮。再: 由於這些投影的大小代表了A在特徵空間各個分量的投影,那麼我們可以使用最小2乘法,求出投影能量最大的那些分量,而把剩下的分量去掉,這樣最大限度地保存了矩陣代表的信息,同時可以大大降低矩陣需要存儲的維度,簡稱PCA方法。
幾何層面理解pca
特徵向量特徵值幾何意義

缺點:PCA有天生的缺點,就是線性矢量的相關性考察有"平移無關性"優點的同時,也完全忽略了,2維圖形中,矢量分量之間的順序是有意義的,順序不同可以代表完全不同的信息。還有,就是圖像B必須是A的某種伸縮(由特徵向量空間決定的),才能被很好的投影到A的特徵向量空間裏面,如果B包含了A中的某種旋轉因素,那麼PCA可以徹底失效。所以實際應用中PCA的方法做圖像識別,識別率並不高,它要求圖像有某種嚴格的方向對齊和歸一化。所以PCA一般不用來做直接的特徵提取而是用來做特徵矩陣的降維。當然,降維的結果用於分類並不理想,我們可以進一步做最小二承法拉開類間距離的Fisher變換。但是Fisher變換會引入新的弱點,那就是對於訓練類別的數據變得更敏感了,分類效果上升的代價是通用性下降,當類型數量急劇膨脹的時候,分類效果的函數仍然是直線下降的----但是還是比直接PCA的分類效果好得多。
  
  1. PCA將所有的樣本(特徵向量集合)作爲一個整體對待,去尋找一個均方誤差最小意義下的最優線性映射投影,而忽略了類別屬性,而它所忽略的投影方向有可能剛好包含了重要的可分性信息。
  
  2. 在對x進行預處理時,第一步需要對其中心化。中心化後,如果數據的尺度不統一,還需要標準化。通常的標準化方式是除以標準差。這裏可能就出出現一個問題,比如標準差很小,接近於零,尤其是被噪聲污染的數據,噪聲的標準差對數據的放大作用更顯著,而沒被噪聲污染的數據其在標準化的過程中放大作用較小。所以在對數據完全無知的情況下,PCA變換並不能得到較好的保留數據信息。
  
3.變換矩陣是被限制爲隨軸心(維度)變化的,如變換矩陣W是各列之間歸一化正交的,各行不是正交的。

4.對降維最終得到的數目,也就是潛在的隱變量的數目,不能很好的估計。對潛在的因變量不能很好的估計這一點,對PCA降維的結果將產生重大影響。

5.PCA原理主要是爲了消除變量之間的相關性,並且假設這種相關性是線性的,對於非線性的依賴關係則不能得到很好的結果。

  1. PCA假設變量服從高斯分佈,當變量不服從高斯分佈(如均勻分佈)時,會發生尺度縮放與旋轉。

可見PCA變換並不是最有效的數據降維方法,根本原因就是它假設數據變量之間是線性相關的並且服從高斯分佈

2.2LDA
LDA是一種有監督的(supervised)線性降維算法。與PCA保持數據信息不同,核心思想:往線性判別超平面的法向量上投影,是的區分度最大(高內聚,低耦合)。LDA是爲了使得降維後的數據點儘可能地容易被區分!

三、非線性映射

非線性映射方法的代表方法有:核方法(核+線性),二維化和張量化(二維+線性),流形學習(ISOMap,LLE,LPP)
3.1基於核的非線性降維
代表方法有:KPCA,KFDA。
  KPCA的基本思想:通過Kernel trick將PCA投影的過程通過內積的形式表達出來。將高維向量ϕ(x)與對應特向β
3.2 流形學習
流形學習的主要算法有:ISOMap(等距映射)、LE(拉普拉斯特徵映射)、LLE(局部線性嵌入)。
  流形:直線或者曲線是一維流形,平面或者曲面是二維流形,更高維之後是多維流形。一個流形好比是 d
  
3.3
3.4

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章