線性判別分析LDA
前言:我在我的第一家公司分析宏基因組數據時,碰到過LDA,不過當時沒有去搞明白,今天有機會再來學習它。在這裏,我們將瞭解到線性判別分析是屬於一種線性分類器。
線性分類器是最簡單的分類器。線性判別函數的一般表達式爲
下面我們開始學習最直觀的Fisher線性判別分析(linear discriminant analysis, LDA).
兩類的線性判別問題可以看作是把所有樣本都投影到一個方向上,然後在這個一維空間中確定一個分類的閾值。過這個閾值點且與投影方向垂直的超平面就是兩類的分界面。
關鍵問題在於如何確定投影方向。Fisher線性判別的思想是,選擇投影方向,使投影后兩類相隔儘可能遠,而同時每一類內部的樣本又儘可能聚焦。這一目標可以表示成如下的準則
這就是Fisher準則函數(Fisher’s Criterion)
通過一系列複雜的數學運算,可以得到Fisher判別準則下的最優投影方向:
$$
需要注意的是,Fisher判別函數最優的解本身只是給出了一個投影方向,並沒有給出我們所要的分界面。要得到分界面,需要在投影后的方向(一維空間)上確定一個分類閾值,並採取決策規則,若
如果不考慮先驗概率的不同,則可以採用閾值,是所有樣本在投影后的均值。