4.1 Introduction 介绍
4.1.1 Notation 符号
一般矩阵用大写加粗的字母,向量用小写加粗字体。
4.1.2 Basics 基础
回顾一下多元高斯概率密度函数:
首先,我们来胡扯一下。不不不,不对,首先我们来解释一下马氏距离(Mahalanobis Distance)的概念。和欧式距离(Euclidean distance)一样,马氏距离可以计算两点之间的距离,但是在计算距离的时候,同时会考虑整体样本的分布情况,所以可以说马氏距离也是衡量一个点与一个分布之间的标准。
假设多维的高斯分布均值为
在统计上,我们希望寻找一个这样的距离,沿着某方向分量上的数据如果比较离散,则给一个较小的权重。假设有
这里的
那么以原点为中心,马氏距离
好了,上面都是根据某篇博客胡编的,下面来看书里是怎么解读多元高斯分布的概率密度函数的。
首先,协方差矩阵
上面 pdf 的 exp 指数项其实算的是数据向量
加入我们限定距离为定值
4.1.3 MLE for an MVN 多元高斯模型的极大似然估计
用 MLE 来估计高斯模型的参数,发现估计出来的均值和协方差是经验均值和协方差,即样本的均值和协方差。
Theorem 4.1.1 (MLE for a Gaussian) 若有
N 个独立同分布的样本xi∈N(μ,Σ) ,那么 MLE 的结果是:μ^mleΣ^mle=1N∑i=1Nxi≜x¯¯=1N∑i=1N(xi−x¯¯)(xi−x¯¯)T=1N(∑i=1NxixTi)−x¯¯x¯¯T
4.1.3.1 Proof *
要推导多元高斯的极大似然估计过程,可能要用到很多的矩阵求导公式,这里只列举一个:
当然,还有 trace trick,很奇妙,
具体的推导过程略,大致就是构造似然函数
4.1.4 Maximum entropy derivation of the Gaussian * 从最大熵中推导出高斯模型
对于特定的均值
4.2 Gaussian discriminant analysis 高斯判别分析
多元高斯模型的一个很重要的应用是,在生成模型中用来定义 class conditional densities
结果就是高斯判别分析,不过仍然是生成模型而非判别模型。如果
生成模型会用下边的公式来找到给定输入对应的预测类别,即
假设连类别先验都是均匀分布的,即
4.2.1 Quadratic discriminant analysis (QDA) 二次判别分析
二次判别分析,就是直接把多元高斯概率密度函数代入到贝叶斯公式里,不过书里感觉写的有点错误,把维度直接认为是
4.2.2 Linear discriminant analysis (LDA) 线性判别分析
线性判别分析是假设所有类的协方差全部共享(tied or shared across classes),即
LDA 的原理是,将带上标签的数据(点),投影到维度更低的空间中。使得投影后的点,相同类别距离更近,不同类别距离更远。因此除了可以做分类器,LDA 也可以做有监督的降维工作。
书里把
若有
4.2.3 Two-class LDA 两类 LDA
假如考虑只有两类的特殊情况,那么可以推导出
4.2.4 MLE for discriminant analysis
直接用经验估计的均值和方差,和前面讲过的一样。
4.2.5 Strategies for preventing overfitting
MLE 容易过拟合,且协方差矩阵一般是奇异矩阵,因此有很多缓解过拟合的方法,后面的小节会一一提到。
4.2.6 Regularized LDA * 正则化 LDA
如果用 Wishart prior 来做最大后验估计,来估计 LDA 中的参数,那么就叫做是 Regularized LDA,简称 RDA。即
高斯模型公式里有
UN×N 是 列向量正交 的矩阵,即UTU=IN ,列向量为左奇异向量(left singular vectors);SN×D 是主对角线上有min(N,D) 个非负 奇异值(singular vaue) 的对角矩阵(其余位置元素都是零);VD×D 是 行和列向量皆正交 的矩阵,即VTV=VVT=ID ,由右奇异向量组成(right singular vectors);
奇异值分解有很多用途,这里主要拿来做求矩阵的伪逆。此外,奇异值分解和特征值分解之间的关系很近,只是约束更弱,奇异值和特征值意义类似。具体我就不了解了,貌似是矩阵论的东西。
4.2.7 Diagonal LDA 对角化 LDA
当 RDA 中
4.2.8 Nearest shrunken centroids classifier *
有时候,特别是高维的特征下,不是所有的特征都是有用的,因此可以用一些筛选的方法,让某些维度失去作用。
4.3 Inference in jointly Gaussian distributions 联合高斯分布的推断
这一章讲述的是,已知联合概率
4.3.1 Statement of the result 结果陈述
Theorem 4.3.1 (Marginals and conditionals of an MVN). 假设
x=(x1,x2) 是联合高斯(jointly Gaussian),且其参数如下:那么边缘概率为,μ=(μ1μ2),Σ=(Σ11Σ21Σ12Σ22),Λ=Σ−1=(Λ11Λ21Λ12Λ22) 后验条件概率为,p(x1)=N(x1|μ1,Σ11)p(x2)=N(x2|μ2,Σ22) 其中,p(x1|x2)=N(x1|μ1|2,Σ1|2) μ1|2Σ1|2=μ1+Σ12Σ−122(x2−μ2)=μ1−Λ−111Λ−112(x2−μ2),=Σ1|2(Λ11μ1−Λ12(x2−μ2)),=Σ11−Σ12Σ−122Σ21=Λ−111
从上面的定理可以看出,如果联合概率分布是高斯分布,那么边缘概率和条件概率分布也都会是高斯分布。边缘概率好理解,直接从行和列提取即可,条件概率就稍麻烦。条件概率的均值是
4.3.2 Examples 例子
下面的小结会给出上面公式的一些例子。
4.3.2.1 Marginals and conditionals 边缘概率和条件概率
考虑两维的高斯分布,有协方差矩阵
边缘概率
举个具体的例子,如
4.3.2.2 Interpolating noise-free data
给无噪声的数据做差值,一般会假设得到的插值函数的平滑,即
后面跳跃性太大了,好难读,跳过先。。。
4.3.2.3 Data imputation 数据重建
如果矩阵中确实了部分的数据,而列之间有时相互关联的,那么可以动过数据重建的方法猜测丢失的数据。
4.3.3 Information form
若有
典范参数下的多元高斯分布就可以写成 Information form,即
4.3.4 Proof of the result *
证明需要用到很多的矩阵只是,比如舒尔补(Schur complements)之类的,主要是求分块矩阵的逆矩阵,略过。
4.3.4.1 Inverse of a partitioned matrix using Schur complements
4.3.4.2 The matrix inversion lemma
4.3.4.3 Proof of Gaussian conditioning formulas
4.4 Linear Gaussian systems 线性高斯系统
假设有隐变量
上面给出的是
4.4.1 Statement of the result
Theorem 4.4.1 (Bayes rule for linear Gaussian systems) 给定一个上述的线性高斯系统,后验概率
p(x|y) 推断如下,其中,p(x|y)=N(x|μx|y,Σx|y) 此外,归一化常量(normalization constant)Σ−1x|y=Σ−1x+ATΣ−1yAμx|y=Σx|y[ATΣ−1y(y−b)+Σ−1xμx] p(y) 为,p(y)=N(y|Aμx+b, Σy+AΣxAT)
4.4.2 Examples
例子就跳过了,不太看得懂。
4.4.2.1 Inferring an unknown scalar from noisy measurements
4.4.2.2 Inferring an unknown vector from noisy measurements
4.2.2.3 Interpolating noisy data
4.4.3 Proof of the result *
证明了 Theorem 4.4.1 的公式。略
4.5 Digression: The Wishart distribution * 题外话:Wishart 分布
Wishart 分布可以看做是 Gamma 分布在正定矩阵上的推广,一般用来描述协方差矩阵
Wishart 分布和 Gaussian 分布关系很密切。假设
Wishart 分布的均值和众数如下,
当
4.5.1 Inverse Wishart distribution 逆 Wishart 分布
见书上公式,略~
4.5.2 Visualizing the Wishart distribution * 可视化
考虑 Wishart 分布式对矩阵的分布,很难画出密度函数,所以可以考虑把矩阵的特征值提取出来,做椭圆的半轴长度。
4.6 Inferring the parameters of an MVN 推断 MVN 的参数
这一小节主要讲解如何推断高斯分布的参数
假设有符合多元高斯分布的数据集
p(μ|D,Σ) 均值p(Σ|D,μ) 方差p(μ,Σ|D) 均值和方差
4.6.1 Posterior distribution of μ
推断
4.6.2 Posterior distribution of Σ *
推断
4.6.2.1 MAP estimation
4.6.2.2 Univariate posterior
4.6.3 Posterior distribution of μ and Σ *
推断