百面機器學習(4)——降維

目錄

PCA最大方差理論

PCA最小平方誤差理論

線性判別分析(LDA)


PCA最大方差理論

1. 如何定義主成分?從這種定義出發,如何設計目標函數使得降維達到提取主成分的目的?針對這個目標函數,如何對PCA問題進行求解?(2)

最大化投影方差的角度

 

 

PCA最小平方誤差理論

1. PCA求解的其實是最佳投影方向,即一條直線,這與數學中線性迴歸的目標不謀而合,能否從迴歸的角度定義PCA的目標並相應地求解問題呢?(2)

最小平方誤差

 

線性判別分析(LDA)

1. 對於具有類別標籤的數據,應當如何設計目標函數使得降維的過程中不損失類別信息?在這種目標下,應當如何進行求解?(2)

LDA 首先是爲了分類服務的,因此只要找到一個投影萬向 w,使得投影后的樣本儘可能按照原始類別分開。

LDA的中心思想:最大化類間距離最小化類內距離

 

線性判別分析與主成分分析

總結:

Fisher LDA 相比 PCA 更善於對有類別信息的數據進行降維處理,但它對數據的分佈做了一些很強的假設,例如,每個類數據都是高斯分佈、各個類的協方差相等。儘管這些假設在實際中並不一定完全滿足,但 LDA 已被證明是非常高效的一種降維方法。主要是因爲線性模型對於噪聲的魯棒性比較好,但由於模型簡單,表達能力有一定侷限性,我們可以通過引入核函數擴展 LDA 方法以處理分佈較爲複雜的數據。

 

1.  LDA和PCA作爲經典的降維算法,如何從應用角度分析其原理的異同?從數學推導的角度,兩種降維算法在目標函數上有何區別與聯繫?(2)

 

應用的角度:無監督任務用PCA降維,有監督則用LDA。

 

後記

從開始接觸《百面機器學習》,當把全部章節看完,覺得這本書寫的特別深入淺出,把很多機器學習的基礎知識給串聯起來了,雖然用電子書閱讀完畢,仍然忍不住入手紙質版書本,好書就需要多看!

百面系列鏈接:

百面機器學習(2)——模型評估

百面機器學習(3)——經典算法

百面機器學習(4)——降維

百面機器學習(5)——非監督學習

百面機器學習(6)——概率圖模型

百面機器學習(7)——優化算法

百面機器學習(8)——採樣

百面機器學習(9)——前向神經網絡

百面機器學習(10)——循環神經網絡

百面機器學習(11)——強化學習

百面機器學習(12)——集成學習

百面機器學習(13)——生成式對抗網絡

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章