線性判別分析（LDA）的原理

前言

LDA在模式識別領域（比如人臉識別，艦艇識別等圖形圖像識別領域）中有非常廣泛的應用，因此我們有必要了解一下它的算法原理。除非特別聲明，本文中的LDA均指的是線性判別分析（Linear Discriminant Analysis），它與自然語言處理領域中的LDA隱含狄利克雷分佈（Latent Dirichlet Allocation）是有本質上的區別的，後者是一種處理文檔的主題模型。

一、LDA的思想

LDA是一種監督學習的降維技術，也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括，就是“投影后類內方差最小，類間方差最大”。什麼意思呢？我們要將數據在低維度空間上進行投影，投影后希望同種類別數據的投影點儘可能的接近，而不同類別的數據的類別中心之間的距離儘可能的大。

這裏假設我們有兩類數據分別用紅色和藍色表示，如下圖所示，這些數據特徵是二維的，我們希望將這些數據投影到一維的一條直線上，讓同種類別數據的投影點儘可能的接近，而且讓紅色和藍色數據中心之間的距離儘可能的大：

上圖中提供了兩種投影方式，那麼哪一種能更好的滿足我們的標準呢？從直觀上可以看出，右圖要比左圖的投影效果好，因爲右圖的紅色數據和藍色數據各自較爲集中，且類別之間的距離明顯。左圖則在邊界處兩類數據比較混雜。以上就是LDA的主要思想了，當然在實際應用中，我們的數據一般是多個類別的，我們的原始數據一般也是超過二維的，投影后的數據也一般不是直線，而是一個低維的超平面。

在我們將上面直觀的內容轉化爲可以度量的問題之前，我們先了解些必要的數學基礎知識，這些在後面講解具體LDA原理時會用到。

二、瑞利商（Rayleigh Quotient）和廣義瑞利商（Generalized Rayleigh Quotient）

瑞利商是指這樣的函數 $R(A,x)$ ：
$R(A,x) = \frac{x^HAx}{x^Hx}$
其中 $x$ 爲非零向量，而 $A$ 爲 $n×n$ 的 $Hermite$ （埃米爾特）矩陣。所謂的 $Hermite$ 矩陣就是滿足共軛轉置矩陣和自己相等的矩陣，即 $A^H=A$ 。如果我們的矩陣 $A$ 是實矩陣，則滿足 $A^H=A^T$ 的矩陣即爲 $Hermite$ 矩陣。

瑞利商 $R(A,x)$ 有一個非常重要的性質，即它的最大值等於矩陣 $A$ 最大的特徵值，而最小值等於矩陣 $A$ 的最小的特徵值，也就是滿足：
$\lambda_{min} \leq \frac{x^HAx}{x^Hx} \leq \lambda_{max}$
具體的證明大家可以參考這篇文章：瑞利商及其極值的計算。
當向量 $x$ 是標準正交基時，即滿足 $x^Hx=1$ 時，瑞利商退化爲： $R(A,x)=x^HAx$ ，這個形式在譜聚類和PCA中都有出現。

以上就是瑞利商的內容，現在我們再看看廣義瑞利商。廣義瑞利商是指這樣的函數 $R(A,B,x)$ ：
$R(A, B, x) = \frac{x^HAx}{x^HBx}$
其中 $x$ 爲非零向量，而 $A,B$ 爲 $n×n$ 的 $Hermite$ 矩陣。 $B$ 爲正定矩陣。它的最大值和最小值是什麼呢？其實我們只要通過將其標準化就可以轉化爲瑞利商的格式。我們令 $x=B^{−1/2}x'$ ,則分母轉化爲：
$x^HBx = x'^H(B^{-1/2})^HBB^{-1/2}x' = x'^HB^{-1/2}BB^{-1/2}x' = x'^Hx'$
而分子轉化爲：
$x^HAx = x'^HB^{-1/2}AB^{-1/2}x'$
此時我們的 $R(A,B,x)$ 轉化爲 $R(A,B,x′)$ ：
$R(A,B,x') = \frac{x'^HB^{-1/2}AB^{-1/2}x'}{x'^Hx'}$
利用前面的瑞利商的性質，我們可以很快的知道， $R(A,B,x')$ 的最大值爲矩陣 $B^{−1/2}AB^{−1/2}$ 的最大特徵值，或者說矩陣 $B^{−1}A$ 的最大特徵值，而最小值爲矩陣 $B^{−1}A$ 的最小特徵值。這裏使用了一些技巧，即對矩陣進行標準化 $\frac{A_{ij}}{\sqrt{B_i \cdot B_j}}$ 。

三、二類LDA的原理

現在我們回到LDA的原理上，我們在第一小節介紹到了LDA希望投影后同種類別數據的投影點儘可能的接近，而不同類別的數據的類別中心之間的距離儘可能的大，但這只是一個感官的度量。現在我們首先從比較簡單的二類LDA入手，嚴謹的分析LDA的原理。

假設我們的數據集 $D=\{(x_1, y_1),(x_2, y_2), ... , ((x_m,y_m))\}$ ，其中任意樣本 $x_i$ 爲 $n$ 維向量， $y_i∈\{0,1\}$ 。我們定義 $N_j(j=0,1)$ 爲第 $j$ 類樣本的個數， $X_j(j=0,1)$ 爲第 $j$ 類樣本的集合，而 $μ_j(j=0,1)$ 爲第 $j$ 類樣本的均值向量，定義 $\Sigma_j(j=0,1)$ 爲第 $j$ 類樣本的協方差矩陣（嚴格說是缺少分母部分的協方差矩陣）。

$\mu_j$ 的表達式爲：
$\mu_j = \frac{1}{N_j} \sum_{x \in X_j} x \quad (j = 0, 1)$
$\Sigma_j$ 的表達式爲：
$\Sigma_j = \sum_{x \in X_j} (x - \mu_j)(x - \mu_j)^T \quad (j = 0, 1)$
由於是兩類數據，因此我們只需要將數據投影到一條直線上即可。假設我們的投影直線是向量 $w$ ，則對任意一個樣本 $x_i$ ，它在直線 $w$ 的投影爲 $w^Tx_i$ ，對於我們的兩個類別的中心點 $μ_0, μ_1$ ,在直線 $w$ 上的投影爲 $w^Tμ_0$ 和 $w^Tμ_1$ 。由於LDA需要讓不同類別的數據的類別中心之間的距離儘可能的大，也就是我們要最大化 $||w^Tμ_0−w^Tμ_1||_2^2$ ,同時我們希望同種類別數據的投影點儘可能的接近，也就是要讓同類樣本投影點的協方差 $w^T\Sigma_0w$ 和 $w^T\Sigma_1w$ 儘可能的小，即最小化 $w^T\Sigma_0w + w^T\Sigma_1w$ 。綜上所述，我們的優化目標爲：
$\underbrace{\arg \max}_w \; J(w) = \frac{||w^Tμ_0−w^Tμ_1||_2^2}{w^T\Sigma_0w + w^T\Sigma_1w} = \frac{w^T(\mu_0 - \mu_1)(\mu_0 - \mu_1)^Tw}{w^T(\Sigma_0 + \Sigma_1)w}$
我們一般定義類內散度矩陣 $S_w$ 爲：
$S_w = \Sigma_0 + \Sigma_1 = \sum_{x \in X_0}(x - \mu_0)(x - \mu_0)^T + \sum_{x \in X_1}(x - \mu_1)(x - \mu_1)^T$
同時定義類間散度矩陣 $S_b$ 爲：
$S_b = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T$
這樣我們的優化目標重寫爲：
$\underbrace{\arg \max}_w \; J(w) = \frac{w^TS_bw}{w^TS_ww}$
仔細觀察上式，這不就是我們的廣義瑞利商嘛！那麼這就簡單了，利用我們第二小節講到的廣義瑞利商的性質，我們知道我們的 $J(w')$ 最大值爲矩陣 $S^{−1/2}_wS_bS^{−1/2}_w$ 的最大特徵值，而對應的 $w'$ 其實爲 $S^{−1/2}_wS_bS^{−1/2}_w$ 的最大特徵值對應的特徵向量！而 $S^{−1}_wS_b$ 的特徵值和 $S^{−1/2}_wS_bS^{−1/2}_w$ 的特徵值相同， $S^{−1}_wS_b$ 的特徵向量 $w$ 和 $S^{−1/2}_wS_bS^{−1/2}_w$ 的特徵向量 $w'$ 滿足 $w = S^{−1/2}_ww'$ 的關係！

注意到對於二類的時候， $S_bw$ 的方向恆爲 $μ_0 − μ_1$ ，因爲：
$S_bw = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T w$
$\Leftrightarrow S_bw = (\mu_0 - \mu_1)(w^T(\mu_0 - \mu_1))^T = (\mu_0 - \mu_1)(w^T\mu_0 - w^T\mu_1)^T$
我們在之前注意到了 $w^T\mu_0 - w^T\mu_1$ 其實是一個標量，即上式可以表示爲：
$S_bw = C(\mu_0 - \mu_1) \quad \text{其中C是一個常數}$
不妨令 $S_bw = \lambda (μ_0 − μ_1)$ ，將其帶入： $(S^{−1}_wS_b)w=\lambda w$ ，可以得到 $w=S^{−1}_w(μ_0−μ_1)$ ，也就是說我們只要求出原始二類樣本的均值和方差就可以確定最佳的投影方向 $w$ 了。

四、多類LDA原理

有了二類LDA的基礎，我們再來看看多類別LDA的原理。

假設我們的數據集 $D=\{(x_1, y_1), (x_2, y_2), ..., ((x_m, y_m))\}$ ，其中任意樣本 $x_i$ 爲 $n$ 維向量， $y_i \in \{C_1, C_2, ..., C_k\}$ 。我們定義 $N_j(j=1, 2, ..., k)$ 爲第j類樣本的個數， $X_j(j=1, 2, ..., k)$ 爲第 $j$ 類樣本的集合，而 $\mu_j(j=1, 2, ..., k)$ 爲第 $j$ 類樣本的均值向量，定義 $\Sigma_j(j=1, 2, ..., k)$ 爲第 $j$ 類樣本的協方差矩陣。在二類LDA裏面定義的公式我們可以類推到多類LDA。

由於我們是多類向低維空間投影，則此時投影到的低維空間就不是一條直線了，而是一個超平面。假設我們投影到的低維空間的維度爲 $d$ ，對應的基向量爲 $(w_1, w_2, ..., w_d)$ ，基向量組成的矩陣爲 $W$ , 它是一個 $n×d$ 的矩陣。

此時我們的優化目標可以變成爲：
$J(W) = \frac{W^TS_bW}{W^TS_wW}$
其中 $S_b = \sum_{j=1}^k N_j (\mu_j - \mu)(\mu_j - \mu)^T$ ， $\mu$ 爲所有樣本的均值向量， $S_w = \sum_{j=1}^k S_{wj} = \sum_{j=1}^k \sum_{x \in X_j} (x - \mu_j)(x - \mu_j)^T$ 。
但是這裏有一個問題，就是 $W^TS_bW$ 和 $W^TS_wW$ 都是矩陣，不是標量，我們無法把它作爲一個標量函數來優化！也就是說，我們無法直接用二類LDA的優化方法，怎麼辦呢？一般來說，我們可以用其他的一些優化目標來進行替換。

常見的一個LDA多類優化目標函數定義爲：
$\underbrace{\arg \max}_W \; J(W) = \frac{\prod_{diag} W^TS_bW}{\prod_{diag} W^TS_wW}$
其中 $\prod_{diag} A$ 爲 $A$ 的主對角線元素的乘積， $W$ 爲 $n \times d$ 的矩陣。
$J(W)$ 的優化過程可以轉化爲：
$J(W) = \frac{\prod_{i=1}^d W_i^TS_bW_i}{\prod_{i=1}^d W_i^TS_wW_i} = \prod_{i=1}^d \frac{W_i^TS_bW_i}{W_i^TS_wW_i}$
仔細觀察上式最右邊的等式，這不就是廣義瑞利商嘛！最大值是矩陣 $S^{−1}_wS_b$ 的最大特徵值，最大的 $d$ 個這樣的廣義瑞利商的值的乘積就是矩陣 $S^{−1}_wS_b$ 的最大的 $d$ 個特徵值的乘積，此時對應的矩陣 $W$ 爲這最大的 $d$ 個特徵值對應的特徵向量張成的矩陣。

由於 $W$ 是一個利用了樣本的類別得到的投影矩陣，因此它降維能降到的維度 $d$ 的最大值爲 $k-1$ 。爲什麼最大維度不是類別數 $k$ 呢？因爲 $S_b$ 中每個 $(\mu_j − \mu)(\mu_j - \mu)^T$ 的秩爲 $1$ ，因此協方差矩陣相加後最大的秩爲 $k$ ( $Rank(A + B) \leq Rank(A) + Rank(B)$ )，但是由於如果我們知道前 $k-1$ 個 $\mu_j$ 後，最後一個 $\mu_k$ 可以由前 $k-1$ 個 $\mu_j$ 線性表示（因爲這裏我們給定樣本之後，所有樣本的均值 $\mu$ 是已知的），因此 $S_b$ 的秩最大爲 $k-1$ ，即特徵向量最多有 $k-1$ 個。

五、LDA算法實現的流程

在第三小節和第四小節我們給大家介紹了LDA的原理，現在我們對LDA降維的流程做一個總結。

輸入：數據集 $D=\{(x_1, y_1), (x_2, y_2), ..., ((x_m, y_m))\}$ ，其中任意樣本 $x_i$ 爲 $n$ 維向量， $y_i \in \{C_1, C_2, ..., C_k\}$ ，降維到的維度 $d$ 。

輸出：降維後的樣本集 $D'$ 。

① 計算類內散度矩陣 $S_w$ ；
② 計算類間散度矩陣 $S_b$ ；
③ 計算矩陣 $S^{−1}_wS_b$ ；
④ 計算 $S^{−1}_wS_b$ 的最大的 $d$ 個特徵值和對應的 $d$ 個特徵向量 $(w_1, w_2, ..., w_d)$ ，得到投影矩陣 $W$ ；
⑤ 對樣本集中的每一個樣本特徵 $x_i$ ，轉化成爲新的樣本 $z_i=W^Tx_i$ ；
⑥ 得到輸出樣本集 $D′=\{(z_1, y_1), (z_2, y_2), ..., ((z_m, y_m))\}$ 。

以上就是使用LDA進行降維的算法流程。實際上LDA除了可以用於降維以外，還可以用於分類。一個常見的LDA分類基本思想是假設各個類別的樣本數據符合高斯分佈，這樣利用LDA進行投影后，可以利用極大似然估計計算各個類別投影數據的均值和方差，進而得到該類別高斯分佈的概率密度函數。當一個新的樣本到來後，我們可以將它投影，然後將投影后的樣本特徵分別帶入各個類別的高斯分佈概率密度函數，計算它屬於這個類別的概率，最大的概率對應的類別即爲該樣本的預測類別。

六、LDA與PCA之間的異同

LDA用於降維，和PCA有很多相同，也有很多不同的地方，因此值得我們好好的比較一下兩者的異同點。

首先我們看看相同點：

① 兩者均可以對數據進行降維。
② 兩者在降維時均使用了矩陣特徵分解的思想。
③ 兩者都假設數據符合高斯分佈。

不同點：

① LDA是有監督的降維方法，而PCA是無監督的降維方法
② LDA降維最多降到類別數k-1的維數，而PCA沒有這個限制。
③ LDA除了可以用於降維，還可以用於分類。

-④ LDA選擇分類性能最好的投影方向，而PCA選擇樣本點具有最大方差的投影方向。

在某些數據分佈下LDA比PCA的降維效果更優，如下圖所示：

當然，某些某些數據分佈下PCA比LDA的降維效果更優，如下圖所示：

七、總結

LDA算法既可以用來降維，又可以用來分類，但是目前來說，主要還是用於降維。在我們進行圖像識別圖像識別相關的數據分析時，LDA是一個有力的工具。下面總結下LDA算法的優缺點。

LDA算法的主要優點有：

① 在降維過程中可以使用類別的先驗知識經驗，而像PCA這樣的無監督學習則無法使用類別先驗知識。
② LDA在樣本分類信息依賴均值而不是方差的時候，優於PCA之類的降維算法。

LDA算法的主要缺點有：

① LDA不適合對非高斯分佈樣本進行降維，PCA也有這個問題。
② LDA降維最多降到類別數k-1的維數，如果我們降維的維度大於k-1，則不能使用LDA。當然目前有一些LDA的進化版算法可以繞過這個問題。
③ LDA在樣本分類信息依賴方差而不是均值的時候，降維效果不是很好。
④ LDA可能過度擬合數據。

八、參考文獻

① 線性判別分析LDA原理總結 - 劉建平
② 線性代數之矩陣的屬性和運算

線性判別分析（LDA）的原理

前言

一、LDA的思想

二、瑞利商（Rayleigh Quotient）和廣義瑞利商（Generalized Rayleigh Quotient）

三、二類LDA的原理

四、多類LDA原理

五、LDA算法實現的流程

六、LDA與PCA之間的異同

七、總結

八、參考文獻

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

機器學習中數據預處理方法的一些建議

線性代數之矩陣微積分

機器學習概率論基礎

Redis的緩存淘汰策略

安裝shapely-geo包出現的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結