1.SVD
1.1 特徵值和特徵向量:
由特徵值和特徵向量的??=??關係,我們可以得出:
Ax=λx
A: n×n 的實對稱矩陣; λ: 特徵值; x:特徵向量
求出特徵值和特徵向量我們可以對矩陣進行分解。
假設矩陣A的?個特徵值λ1≤λ2≤...≤λn,以及這?個特徵值所對應的特徵向量{w1,w2,...wn},如果這?個特徵向量線性無關,那麼矩陣A可以分解爲:
A=W∑W−1
W:?個特徵向量所張成的?×?維矩陣;
∑:n個特徵值爲主對角線的?×?維矩陣;
標準化後:∣∣wi∣∣2=1,可以得出:W−1=WT,A=W∑WT
1.2 SVD定義:
使用SVD可以對任意矩陣進行分解,而不要求方陣。
m×n的矩陣A的SVD定義爲:
A=U∑VT
- U: m×m 的矩陣
- ∑: m×n 的矩陣 除了對角線元素其他都爲0;
- U: m×n 的矩陣
1.3 如何求分解:
-
右奇異矩陣:
(ATA)vi=λvi
所有特徵向量vi張成一個n×n的矩陣V,即我們SVD中的V
-
左奇異矩陣:
(ATA)ui=λui
所有特徵向量ui張成一個n×n的矩陣U,即我們SVD中的U
-
奇異矩陣:
A=UΣVT⇒AV=UΣVTV⇒AV=UΣ⇒Avi=σiui⇒σi=Avi/ui
由上述公式便可求出奇異值和奇異矩陣。
-
爲什麼ATA 的特徵向量組成SVD中的V矩陣:
A=UΣVT⇒AT=VΣTUT⇒ATA=VΣTUTUΣVT=VΣ2VT
-
由上述可以得出矩陣A的奇異值和ATA的特徵值滿足下列關係:
σi=λi
詳細推導見[9]。
2.PCA:
2.1 基礎數學知識:
- PCA的目標:最大化投影方差。信號具有較大方差, 噪聲具有較小方差, 信號與噪聲之比稱爲信噪比。信噪比越大意味着數據的質量越好, 反之, 信噪比越小意味着數據的質量越差
- 內積與投影:A⋅B=∣A∣∣B∣cos(α)
- 方差:Var(a)=m1∑i=1m(ai−μ)2
- 協方差:
cov(X,Y)=E[(X−E[X])(Y−E[Y])]=n1∑i=1n(xi−E(X))(yi−E(Y))=m1XXT
- 矩陣求導:∂A∂A⊤A=A
1.2 理論推導-最大化投影方差:
以下從最大化投影方差角度來講解如何實現PCA,設數據點爲{v1,v2,…,vn},所有向量爲列向量
- 去中心化:{x1,x2,…,xn}={v1−μ,v2−μ,…,vn−μ},去中心化的目的是爲了使得投影后的數據均值爲0;
- 求投影方差:D(x)=n1∑i=1n(xiTω)2=ωT(n1∑i=1nxixiT)ω
- 樣本協方差矩陣:C=∑i=1nxixiT,投影后的方差即協方差矩陣的特徵值;
- 協方差矩陣進行特徵值分解(λ1,λ2,...λn),並求解對應的特徵向量(e1,e2,...en);
- 特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前d行組成矩陣P;
- Y=PX即爲降維到d維後的數據;
- 降維後的信息佔比:∑i=1dλi2/∑i=1nλi2
3. LDA(Linear Discriminant Analysis)
3.1理論推導:
LDA的主要思想是:最大化類間距離,最小化類內距離;
二分類樣本,兩類是C1,C2, 均值分別爲μ1=N11∑x∈C1x,μ2=N21∑x∈C2x
- 投影后類間距離:D(C1,C2)=∥μ1−μ2∥22=∥∥wT(μ1−μ2)∥∥22
- 優化目標(最大化類間方差):maxω∥∥ωT(μ1−μ2)∥∥22;s.t.ωTω=1
- 最小化投影后類內方差:D1=∑x∈C1(ωTx−ωTμ1)2=∑x∈C1ωT(x−μ1)(x−μ1)Tω,D2 有同樣的結果;
- 綜合目標:J(ω)=∑x∈CiωT(x−μi)(x−μi)TωωT(μ1−μ2)(μ1−μ2)Tω
- 對其求導令其爲0:∂ω∂J(ω)=(ωTSwω)2(∂ω∂ωTSBωωTSwω−∂ω∂ωTSwωωTSBω)=0
- 最佳投影方向:Jω=Sw−1(μ1−μ2)
算法假設:
LDA算法的實現對數據分佈做了很多強假設:
實際訓練過程中,由於test是沒有標籤的所以我們不能對test做同樣的LDA操作,也就無法使用。
PCA vs LDA
|
PCA |
LDA |
有無監督 |
無監督學習 |
有監督學習 |
目標 |
方差最大的方向 |
最大化類間距離、 最小化類內距離 |
強假設 |
數據滿足高斯分佈、 各個類的協方差相等 |
|
參考資料:
1. 一文詳解LDA主題模型
2. LDA(Latent Dirichlet Allocation)主題模型
3. LDA-math-彙總 LDA數學八卦
4. Introduction to Latent Dirichlet Allocation
5. LSA(Latent semantic analysis)
6. 通俗理解潛在語義分析LSA
7. 文本主題模型之非負矩陣分解(NMF)
8. PCA的數學原理(轉)
9. 奇異值分解(SVD)原理與在降維中的應用