4.1 Introduction 介紹
4.1.1 Notation 符號
一般矩陣用大寫加粗的字母,向量用小寫加粗字體。
4.1.2 Basics 基礎
回顧一下多元高斯概率密度函數:
首先,我們來胡扯一下。不不不,不對,首先我們來解釋一下馬氏距離(Mahalanobis Distance)的概念。和歐式距離(Euclidean distance)一樣,馬氏距離可以計算兩點之間的距離,但是在計算距離的時候,同時會考慮整體樣本的分佈情況,所以可以說馬氏距離也是衡量一個點與一個分佈之間的標準。
假設多維的高斯分佈均值爲
在統計上,我們希望尋找一個這樣的距離,沿着某方向分量上的數據如果比較離散,則給一個較小的權重。假設有
這裏的
那麼以原點爲中心,馬氏距離
好了,上面都是根據某篇博客胡編的,下面來看書裏是怎麼解讀多元高斯分佈的概率密度函數的。
首先,協方差矩陣
上面 pdf 的 exp 指數項其實算的是數據向量
加入我們限定距離爲定值
4.1.3 MLE for an MVN 多元高斯模型的極大似然估計
用 MLE 來估計高斯模型的參數,發現估計出來的均值和協方差是經驗均值和協方差,即樣本的均值和協方差。
Theorem 4.1.1 (MLE for a Gaussian) 若有
N 個獨立同分布的樣本xi∈N(μ,Σ) ,那麼 MLE 的結果是:μ^mleΣ^mle=1N∑i=1Nxi≜x¯¯=1N∑i=1N(xi−x¯¯)(xi−x¯¯)T=1N(∑i=1NxixTi)−x¯¯x¯¯T
4.1.3.1 Proof *
要推導多元高斯的極大似然估計過程,可能要用到很多的矩陣求導公式,這裏只列舉一個:
當然,還有 trace trick,很奇妙,
具體的推導過程略,大致就是構造似然函數
4.1.4 Maximum entropy derivation of the Gaussian * 從最大熵中推導出高斯模型
對於特定的均值
4.2 Gaussian discriminant analysis 高斯判別分析
多元高斯模型的一個很重要的應用是,在生成模型中用來定義 class conditional densities
結果就是高斯判別分析,不過仍然是生成模型而非判別模型。如果
生成模型會用下邊的公式來找到給定輸入對應的預測類別,即
假設連類別先驗都是均勻分佈的,即
4.2.1 Quadratic discriminant analysis (QDA) 二次判別分析
二次判別分析,就是直接把多元高斯概率密度函數代入到貝葉斯公式裏,不過書裏感覺寫的有點錯誤,把維度直接認爲是
4.2.2 Linear discriminant analysis (LDA) 線性判別分析
線性判別分析是假設所有類的協方差全部共享(tied or shared across classes),即
LDA 的原理是,將帶上標籤的數據(點),投影到維度更低的空間中。使得投影后的點,相同類別距離更近,不同類別距離更遠。因此除了可以做分類器,LDA 也可以做有監督的降維工作。
書裏把
若有
4.2.3 Two-class LDA 兩類 LDA
假如考慮只有兩類的特殊情況,那麼可以推導出
4.2.4 MLE for discriminant analysis
直接用經驗估計的均值和方差,和前面講過的一樣。
4.2.5 Strategies for preventing overfitting
MLE 容易過擬合,且協方差矩陣一般是奇異矩陣,因此有很多緩解過擬合的方法,後面的小節會一一提到。
4.2.6 Regularized LDA * 正則化 LDA
如果用 Wishart prior 來做最大後驗估計,來估計 LDA 中的參數,那麼就叫做是 Regularized LDA,簡稱 RDA。即
高斯模型公式裏有
UN×N 是 列向量正交 的矩陣,即UTU=IN ,列向量爲左奇異向量(left singular vectors);SN×D 是主對角線上有min(N,D) 個非負 奇異值(singular vaue) 的對角矩陣(其餘位置元素都是零);VD×D 是 行和列向量皆正交 的矩陣,即VTV=VVT=ID ,由右奇異向量組成(right singular vectors);
奇異值分解有很多用途,這裏主要拿來做求矩陣的僞逆。此外,奇異值分解和特徵值分解之間的關係很近,只是約束更弱,奇異值和特徵值意義類似。具體我就不瞭解了,貌似是矩陣論的東西。
4.2.7 Diagonal LDA 對角化 LDA
當 RDA 中
4.2.8 Nearest shrunken centroids classifier *
有時候,特別是高維的特徵下,不是所有的特徵都是有用的,因此可以用一些篩選的方法,讓某些維度失去作用。
4.3 Inference in jointly Gaussian distributions 聯合高斯分佈的推斷
這一章講述的是,已知聯合概率
4.3.1 Statement of the result 結果陳述
Theorem 4.3.1 (Marginals and conditionals of an MVN). 假設
x=(x1,x2) 是聯合高斯(jointly Gaussian),且其參數如下:那麼邊緣概率爲,μ=(μ1μ2),Σ=(Σ11Σ21Σ12Σ22),Λ=Σ−1=(Λ11Λ21Λ12Λ22) 後驗條件概率爲,p(x1)=N(x1|μ1,Σ11)p(x2)=N(x2|μ2,Σ22) 其中,p(x1|x2)=N(x1|μ1|2,Σ1|2) μ1|2Σ1|2=μ1+Σ12Σ−122(x2−μ2)=μ1−Λ−111Λ−112(x2−μ2),=Σ1|2(Λ11μ1−Λ12(x2−μ2)),=Σ11−Σ12Σ−122Σ21=Λ−111
從上面的定理可以看出,如果聯合概率分佈是高斯分佈,那麼邊緣概率和條件概率分佈也都會是高斯分佈。邊緣概率好理解,直接從行和列提取即可,條件概率就稍麻煩。條件概率的均值是
4.3.2 Examples 例子
下面的小結會給出上面公式的一些例子。
4.3.2.1 Marginals and conditionals 邊緣概率和條件概率
考慮兩維的高斯分佈,有協方差矩陣
邊緣概率
舉個具體的例子,如
4.3.2.2 Interpolating noise-free data
給無噪聲的數據做差值,一般會假設得到的插值函數的平滑,即
後面跳躍性太大了,好難讀,跳過先。。。
4.3.2.3 Data imputation 數據重建
如果矩陣中確實了部分的數據,而列之間有時相互關聯的,那麼可以動過數據重建的方法猜測丟失的數據。
4.3.3 Information form
若有
典範參數下的多元高斯分佈就可以寫成 Information form,即
4.3.4 Proof of the result *
證明需要用到很多的矩陣只是,比如舒爾補(Schur complements)之類的,主要是求分塊矩陣的逆矩陣,略過。
4.3.4.1 Inverse of a partitioned matrix using Schur complements
4.3.4.2 The matrix inversion lemma
4.3.4.3 Proof of Gaussian conditioning formulas
4.4 Linear Gaussian systems 線性高斯系統
假設有隱變量
上面給出的是
4.4.1 Statement of the result
Theorem 4.4.1 (Bayes rule for linear Gaussian systems) 給定一個上述的線性高斯系統,後驗概率
p(x|y) 推斷如下,其中,p(x|y)=N(x|μx|y,Σx|y) 此外,歸一化常量(normalization constant)Σ−1x|y=Σ−1x+ATΣ−1yAμx|y=Σx|y[ATΣ−1y(y−b)+Σ−1xμx] p(y) 爲,p(y)=N(y|Aμx+b, Σy+AΣxAT)
4.4.2 Examples
例子就跳過了,不太看得懂。
4.4.2.1 Inferring an unknown scalar from noisy measurements
4.4.2.2 Inferring an unknown vector from noisy measurements
4.2.2.3 Interpolating noisy data
4.4.3 Proof of the result *
證明了 Theorem 4.4.1 的公式。略
4.5 Digression: The Wishart distribution * 題外話:Wishart 分佈
Wishart 分佈可以看做是 Gamma 分佈在正定矩陣上的推廣,一般用來描述協方差矩陣
Wishart 分佈和 Gaussian 分佈關係很密切。假設
Wishart 分佈的均值和衆數如下,
當
4.5.1 Inverse Wishart distribution 逆 Wishart 分佈
見書上公式,略~
4.5.2 Visualizing the Wishart distribution * 可視化
考慮 Wishart 分佈式對矩陣的分佈,很難畫出密度函數,所以可以考慮把矩陣的特徵值提取出來,做橢圓的半軸長度。
4.6 Inferring the parameters of an MVN 推斷 MVN 的參數
這一小節主要講解如何推斷高斯分佈的參數
假設有符合多元高斯分佈的數據集
p(μ|D,Σ) 均值p(Σ|D,μ) 方差p(μ,Σ|D) 均值和方差
4.6.1 Posterior distribution of μ
推斷
4.6.2 Posterior distribution of Σ *
推斷
4.6.2.1 MAP estimation
4.6.2.2 Univariate posterior
4.6.3 Posterior distribution of μ and Σ *
推斷