4.1 Introduction 介绍

4.1.1 Notation 符号

一般矩阵用大写加粗的字母，向量用小写加粗字体。

4.1.2 Basics 基础

回顾一下多元高斯概率密度函数：

N (x | μ, Σ) ≜ 1 ( 2 π ) D / 2 | Σ | 1 / 2 e x p [- 1 2 (x - μ) T Σ - 1 (x - μ)]

首先，我们来胡扯一下。不不不，不对，首先我们来解释一下马氏距离（Mahalanobis Distance）的概念。和欧式距离（Euclidean distance）一样，马氏距离可以计算两点之间的距离，但是在计算距离的时候，同时会考虑整体样本的分布情况，所以可以说马氏距离也是衡量一个点与一个分布之间的标准。

假设多维的高斯分布均值为 μ=(μ1,...,μn) ，那么定义变量 x=(x1,...,xn) 两点之间的欧氏距离为

d E (x, μ) = (x - μ) T (x - μ) - - - - - - - - - - - - - \sqrt = (x 1 - μ 1) 2 + \dots + (x n - μ n) 2 - - - - - - - - - - - - - - - - - - - - - - \sqrt

那么以原点为中心，欧氏距离

∥x∥2=c 的所有点集合为一个正球体，

x 21 + x 22 + \dots + x 2 n = c 2

在统计上，我们希望寻找一个这样的距离，沿着某方向分量上的数据如果比较离散，则给一个较小的权重。假设有

u = (x i s i), v = (μ i s i), i = 1, . . ., p

为新的基底，

d M (x, μ) = d E (u, v) = (u - v) T (u - v) - - - - - - - - - - - - - \sqrt = (x 1 - μ 1 s 1) 2 + \dots + (x n - μ n s n) 2 - - - - - - - - - - - - - - - - - - - - - - - \sqrt = (x - μ) T Σ - 1 (x - μ) - - - - - - - - - - - - - - - - \sqrt

这里的 Σ=diag(s21,⋯,s2n)

那么以原点为中心，马氏距离 ∥x∥=c 的所有点集合为一个椭球体，

(x 1 s 1) 2 + (x 2 s 2) 2 + \dots + (x n s n) 2 = c 2

好了，上面都是根据某篇博客胡编的，下面来看书里是怎么解读多元高斯分布的概率密度函数的。

首先，协方差矩阵 Σ 是一个实对称矩阵，必然可以正交对角化。有 Σ=UTΛU ，其中 U 为正交矩阵（orthonormal matrix），即满足 UTU=I ，由矩阵 Σ 的特征向量组成；Λ 为对角矩阵（diagonal matrix），对角元素为 Σ 的特征值。同理：

Σ - 1 = U - T Σ - 1 U - 1 = U Σ - 1 U T = \sum i = 1 D 1 λ i u i u T i

注意

λi 是矩阵

Σ 的特征值，

ui 是矩阵

Σ 的特征向量，且

U=(u1,u2,⋯,un) 。

上面 pdf 的 exp 指数项其实算的是数据向量 x 和均值向量 μ 之间的马氏距离，可以这样化简：

(x - μ) T Σ - 1 (x - μ) = (x - μ) T (\sum i = 1 D 1 λ i u i u T i) (x - μ) = \sum i = 1 D 1 λ i [(x - μ) T u i u T i (x - μ)] = \sum i = 1 D 1 λ i y 2 i where y i = u T i (x - μ)

加入我们限定距离为定值 1 ，那么有

y 2 1 λ 1 + y 2 2 λ 2 + \dots + y 2 n λ n = 1

显然这是个高维的椭球体。若协方差矩阵是正定的，那么

λi−−√ 就是各半轴的长度。书里图 4-1 展示了 2 维的高斯密度等高线。

4.1.3 MLE for an MVN 多元高斯模型的极大似然估计

用 MLE 来估计高斯模型的参数，发现估计出来的均值和协方差是经验均值和协方差，即样本的均值和协方差。

Theorem 4.1.1 (MLE for a Gaussian) 若有 N 个独立同分布的样本 xi∈N(μ,Σ) ，那么 MLE 的结果是：
$μ^m l e Σ^m l e = 1 N \sum i = 1 N x i ≜ x ¯ ¯ = 1 N \sum i = 1 N (x i - x ¯ ¯) (x i - x ¯ ¯) T = 1 N (\sum i = 1 N x i x T i) - x ¯ ¯ x ¯ ¯ T$

4.1.3.1 Proof *

要推导多元高斯的极大似然估计过程，可能要用到很多的矩阵求导公式，这里只列举一个：

\partial ( a T A a ) \partial a = (A + A T) a

当然，还有 trace trick，很奇妙，

x T A x = tr (x T A x) = tr (x x T A) = tr (A x x T)

具体的推导过程略，大致就是构造似然函数 ℓ(μ,Σ) ，然后分别求偏导，化简后得到。

4.1.4 Maximum entropy derivation of the Gaussian * 从最大熵中推导出高斯模型

对于特定的均值 μ 和协方差矩阵 Σ ，MVN 是在所有的分布中熵最大的。

4.2 Gaussian discriminant analysis 高斯判别分析

多元高斯模型的一个很重要的应用是，在生成模型中用来定义 class conditional densities

p (x | y = c, θ) = N (x | μ c, Σ c)

结果就是高斯判别分析，不过仍然是生成模型而非判别模型。如果 Σc 为可对角化（diagonal），那么等价于 Gaussian Naive Bayes classifier.（为什么呢？）

生成模型会用下边的公式来找到给定输入对应的预测类别，即

y^(x) = arg max c [log p (y = c | π) + log p (x | y = c, θ c)]

这个还是贝叶斯公式，

π 只是参数

θ 中跟 prior class 相关的的参数单独提取出来。后面的概率

p(x|y=c,θc) ，其实就是衡量点

x 到类别

c 中心

xc 的马氏距离。这种想法叫做 nearest controids classifier，比如

k 近邻算法就是这一类型的。

假设连类别先验都是均匀分布的，即 p(y=c|π) 为常数，那么分类器的公式可以这样写，

y^(x) = arg min c (x - μ c) T Σ - 1 c (x - μ c)

4.2.1 Quadratic discriminant analysis (QDA) 二次判别分析

二次判别分析，就是直接把多元高斯概率密度函数代入到贝叶斯公式里，不过书里感觉写的有点错误，把维度直接认为是 1 了。之所以叫二次，是因为画出来的决策面是曲线，而下面要讲的 LDA 却是线性的决策面。

4.2.2 Linear discriminant analysis (LDA) 线性判别分析

线性判别分析是假设所有类的协方差全部共享（tied or shared across classes），即 Σc=Σ ，这样子画出的决策面是线性的。

LDA 的原理是，将带上标签的数据（点），投影到维度更低的空间中。使得投影后的点，相同类别距离更近，不同类别距离更远。因此除了可以做分类器，LDA 也可以做有监督的降维工作。

书里把 p(y=c|x,θ) 推导逐渐写成了 Softmax 复合函数，也是很神奇，和 PRML 那本书的思路完全不一样。其中Softmax公式如下：

S (η) c = e η c \sum C c ' = 1 e η c '

由于这个函数起源于统计物理学，倘若添加一个温度常量

T ，那么发现低温下，

S(η/T)c 偏向于均匀分布；高温时，只有最大值的变量趋近于

1 ，其他都为零，因此和

max 函数很像。

若有 p(y|x,W)=Cat(y|Wx) ，那么这时模型就是 multi-class logistic regression，或者叫 multinomial logistic regression，然而这个是判别模型。生成模型和判别模型的区别会在第八章提到。

4.2.3 Two-class LDA 两类 LDA

假如考虑只有两类的特殊情况，那么可以推导出

p (y = 1 | x, θ) = sigmoid (w T (x - x 0))

这已经和 logistic regression 很接近了（我怎么感觉是一样的？）。决策规则是这样子，先把

x 平移

x0 ，然后投影到线

w 上去，再判断正负性。

4.2.4 MLE for discriminant analysis

直接用经验估计的均值和方差，和前面讲过的一样。

4.2.5 Strategies for preventing overfitting

MLE 容易过拟合，且协方差矩阵一般是奇异矩阵，因此有很多缓解过拟合的方法，后面的小节会一一提到。

4.2.6 Regularized LDA * 正则化 LDA

如果用 Wishart prior 来做最大后验估计，来估计 LDA 中的参数，那么就叫做是 Regularized LDA，简称 RDA。即

Σ^= λ diag (Σ^m l e) + (1 - λ) Σ^m l e

其中，

λ 是控制两者的权重。

高斯模型公式里有 Σ^−1 ，但是如果不是方阵，特别是 D>N ，即方程组数量小于变量维数的情况，可以用奇异值分解（SVD，singular value decomposition）来解决。即对任意的矩阵 X ，必定可以分解成三个特殊的矩阵，

X    N \times D = U    N \times N S    N \times D V T    D \times D

其中，

UN×N 是 列向量正交 的矩阵，即 UTU=IN ，列向量为左奇异向量（left singular vectors）；
SN×D 是主对角线上有 min(N,D) 个非负 奇异值（singular vaue） 的对角矩阵（其余位置元素都是零）；
VD×D 是 行和列向量皆正交 的矩阵，即 VTV=VVT=ID ，由右奇异向量组成（right singular vectors）；

奇异值分解有很多用途，这里主要拿来做求矩阵的伪逆。此外，奇异值分解和特征值分解之间的关系很近，只是约束更弱，奇异值和特征值意义类似。具体我就不了解了，貌似是矩阵论的东西。

4.2.7 Diagonal LDA 对角化 LDA

当 RDA 中 λ=1 时，协方差矩阵完全为可对角化矩阵，称 Diagonal LDA，该模型在高维的情况下比 RDA 和 LDA 要好。

4.2.8 Nearest shrunken centroids classifier *

有时候，特别是高维的特征下，不是所有的特征都是有用的，因此可以用一些筛选的方法，让某些维度失去作用。

4.3 Inference in jointly Gaussian distributions 联合高斯分布的推断

这一章讲述的是，已知联合概率 p(x1,x2) ，如何求解边缘概率 p(x1) 和条件概率 p(x1|x2) .

4.3.1 Statement of the result 结果陈述

Theorem 4.3.1 (Marginals and conditionals of an MVN). 假设 x=(x1,x2) 是联合高斯（jointly Gaussian），且其参数如下：
$μ = (μ 1 μ 2), Σ = (Σ 11 Σ 21 Σ 12 Σ 22), Λ = Σ - 1 = (Λ 11 Λ 21 Λ 12 Λ 22)$ 那么边缘概率为， $p (x 1) = N (x 1 | μ 1, Σ 11) p (x 2) = N (x 2 | μ 2, Σ 22)$ 后验条件概率为， $p (x 1 | x 2) = N (x 1 | μ 1 | 2, Σ 1 | 2)$ 其中， $μ 1 | 2 Σ 1 | 2 = μ 1 + Σ 12 Σ - 1 22 (x 2 - μ 2) = μ 1 - Λ - 1 11 Λ - 1 12 (x 2 - μ 2), = Σ 1 | 2 (Λ 11 μ 1 - Λ 12 (x 2 - μ 2)), = Σ 11 - Σ 12 Σ - 1 22 Σ 21 = Λ - 1 11$

从上面的定理可以看出，如果联合概率分布是高斯分布，那么边缘概率和条件概率分布也都会是高斯分布。边缘概率好理解，直接从行和列提取即可，条件概率就稍麻烦。条件概率的均值是 x2 的线性函数，协方差则是和 x2 无关的常数矩阵。

4.3.2 Examples 例子

下面的小结会给出上面公式的一些例子。

4.3.2.1 Marginals and conditionals 边缘概率和条件概率

考虑两维的高斯分布，有协方差矩阵

Σ = (σ 21 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 22)

边缘概率 p(x1) 是一维的高斯，可以通过把联合概率投影到直线 x1 上得到，

p (x 1) = N (x 1 | μ 1, σ 21)

条件概率

p(x1|x2) 就稍麻烦，

p (x 1 | x 2) = N (x 1 | μ 1 + ρ σ 1 σ 2 σ 2 2 (x 2 - μ 2), σ 21 - ( ρ σ 1 σ 2 ) 2 σ 2 2)

如果假设协方差是共享的，即

σ1=σ2=σ 时，有

p (x 1 | x 2) = N (x 1 | μ 1 + ρ (x 2 - μ 2), σ 2 (1 - ρ 2))

举个具体的例子，如 ρ=0.8,σ=1,μ1=μ2=0,x2=1 那么，p(x1|x2)=N(x1|0.8,0.36) 表示沿着 x2=1 截取的曲线。

4.3.2.2 Interpolating noise-free data

给无噪声的数据做差值，一般会假设得到的插值函数的平滑，即

x j = 1 2 (x j - 1 + x j + 1) + ϵ j

即当前值是相邻值的均值加上一个高斯噪声。有

ϵ∈N(0,(1/λ)I) ，参数

λ 控制了平滑的程度。较大的值偏向于平滑，较小的值会较为抖动（wiggly）.

后面跳跃性太大了，好难读，跳过先。。。

4.3.2.3 Data imputation 数据重建

如果矩阵中确实了部分的数据，而列之间有时相互关联的，那么可以动过数据重建的方法猜测丢失的数据。

4.3.3 Information form

若有 x∼N(x|μ,Σ) ，其中的参数是均值和方差 μ,Σ 就叫做是 距参量（moment parameters），不过有时候也可以定义这样子的参数

Λ ≜ Σ - 1, ξ ≜ Σ - 1 μ

这样的参数叫做 典范参数（cononical parameters），或者叫 自然参数（natural parameters）. 在计算条件概率和两个高斯概率相乘时，典范参数表达会简洁很多，但是距参量在边缘概率会表述方便一些。

典范参数下的多元高斯分布就可以写成 Information form，即 Nc(x|ξ,Λ) .

4.3.4 Proof of the result *

证明需要用到很多的矩阵只是，比如舒尔补（Schur complements）之类的，主要是求分块矩阵的逆矩阵，略过。

4.3.4.1 Inverse of a partitioned matrix using Schur complements

4.3.4.2 The matrix inversion lemma

4.3.4.3 Proof of Gaussian conditioning formulas

4.4 Linear Gaussian systems 线性高斯系统

假设有隐变量 x∈RDx ，而只能观察到带噪音的变量 y∈RDy ，那么下面的先验和似然

p (x) = N (x | μ x, Σ x) p (y | x) = N (y | A x + b, Σ y)

就可以组成一个线性高斯系统（linear Gaussian system），其中矩阵

A 为

Dx×Dy 的矩阵。

上面给出的是 x→y 的信息，我们的目的得到 y→x 的信息，即如果从观察变量中推断（infer）隐变量。

4.4.1 Statement of the result

Theorem 4.4.1 (Bayes rule for linear Gaussian systems) 给定一个上述的线性高斯系统，后验概率 p(x|y) 推断如下，
$p (x | y) = N (x | μ x | y, Σ x | y)$ 其中， $Σ - 1 x | y = Σ - 1 x + A T Σ - 1 y A μ x | y = Σ x | y [A T Σ - 1 y (y - b) + Σ - 1 x μ x]$ 此外，归一化常量（normalization constant）p(y) 为， $p (y) = N (y | A μ x + b, Σ y + A Σ x A T)$

4.4.2 Examples

例子就跳过了，不太看得懂。

4.4.2.1 Inferring an unknown scalar from noisy measurements

4.4.2.2 Inferring an unknown vector from noisy measurements

4.2.2.3 Interpolating noisy data

4.4.3 Proof of the result *

证明了 Theorem 4.4.1 的公式。略

4.5 Digression: The Wishart distribution * 题外话：Wishart 分布

Wishart 分布可以看做是 Gamma 分布在正定矩阵上的推广，一般用来描述协方差矩阵 Σ ，或者其逆矩阵 Λ=Σ−1 的分布。概率密度函数定义如下：

Wi (Λ | S, ν) = 1 Z Wi | Λ | (ν - D - 1) / 2 exp (- 1 2 tr (Λ S - 1))

其中

ν 成为自由度（degrees of freedom），

S 叫做尺度矩阵（scale matrix），归一化项为

Z Wi = 2 ν D / 2 Γ D (ν / 2) | S | ν / 2

其中

ΓD(a) 为多元伽马函数（multivariate gamma function），

Γ D (x) = π D (D - 1) / 4 \prod i = 1 D Γ (x + (1 - i) / 2)

当

D=1 时正好是

Γ 函数。注意只有当

ν>D−1 时，归一化常数才存在。

Wishart 分布和 Gaussian 分布关系很密切。假设 xi∼N(0,Σ) ，那么 scatter matrix S=∑Ni=1xixTi 是符合 Wishart 分布的，即 S∼Wi(Σ,1) ，所以 E(S)=NΣ

Wishart 分布的均值和众数如下，

mean = ν S, mode = (ν - D - 1) S

当 D=1 时，Wishart 分布退化成伽马分布，

Wi (λ | s - 1, ν) = Ga (λ | ν 2, s 2)

4.5.1 Inverse Wishart distribution 逆 Wishart 分布

见书上公式，略~

4.5.2 Visualizing the Wishart distribution * 可视化

考虑 Wishart 分布式对矩阵的分布，很难画出密度函数，所以可以考虑把矩阵的特征值提取出来，做椭圆的半轴长度。

4.6 Inferring the parameters of an MVN 推断 MVN 的参数

这一小节主要讲解如何推断高斯分布的参数 θ=(μ,Σ) 。

假设有符合多元高斯分布的数据集 D={xi|xi∼N(μ,Σ)} ，分成三个部分来推断参数，

MLaPP Chapter 4 Gaussian models 高斯模型