百面機器學習（4）——降維

原創

Briwisdom

2020-06-30 01:18

PCA最大方差理論

PCA最小平方誤差理論

線性判別分析（LDA）

PCA最大方差理論

1. 如何定義主成分？從這種定義出發，如何設計目標函數使得降維達到提取主成分的目的？針對這個目標函數，如何對PCA問題進行求解？（2）

最大化投影方差的角度

PCA最小平方誤差理論

1. PCA求解的其實是最佳投影方向，即一條直線，這與數學中線性迴歸的目標不謀而合，能否從迴歸的角度定義PCA的目標並相應地求解問題呢？(2)

最小平方誤差

線性判別分析（LDA）

1. 對於具有類別標籤的數據，應當如何設計目標函數使得降維的過程中不損失類別信息？在這種目標下，應當如何進行求解？（2）

LDA 首先是爲了分類服務的，因此只要找到一個投影萬向 w，使得投影后的樣本儘可能按照原始類別分開。

LDA的中心思想：最大化類間距離和最小化類內距離

線性判別分析與主成分分析

總結：

Fisher LDA 相比 PCA 更善於對有類別信息的數據進行降維處理，但它對數據的分佈做了一些很強的假設，例如，每個類數據都是高斯分佈、各個類的協方差相等。儘管這些假設在實際中並不一定完全滿足，但 LDA 已被證明是非常高效的一種降維方法。主要是因爲線性模型對於噪聲的魯棒性比較好，但由於模型簡單，表達能力有一定侷限性，我們可以通過引入核函數擴展 LDA 方法以處理分佈較爲複雜的數據。

１. 　LDA和PCA作爲經典的降維算法，如何從應用角度分析其原理的異同？從數學推導的角度，兩種降維算法在目標函數上有何區別與聯繫？（2）

應用的角度：無監督任務用PCA降維，有監督則用LDA。

後記

從開始接觸《百面機器學習》，當把全部章節看完，覺得這本書寫的特別深入淺出，把很多機器學習的基礎知識給串聯起來了，雖然用電子書閱讀完畢，仍然忍不住入手紙質版書本，好書就需要多看！

百面系列鏈接：