什么是共轭性
一个分布P是另一个分布Q的共轭,则这两个分布相乘,分布形式与P相同(同族)。
共轭先验与贝叶斯方法
对于已有数据集x,记似然估计为P1(x∣λ),其中λ是参数,先验分布为P2(λ;θ),其中θ是参数先验分布的已知有关参数。
则参数的后验分布可以写为
P(λ∣x;θ)=P(x)P1(x∣λ)P2(λ;θ)
如果P2是P1的共轭分布,则
P1(x∣λ)P2(λ;θ)=κ(x,θ)P2(λ;θ~)
其中κ(x,θ)是一个λ无关的常数,P2(λ;θ~)与P2(λ;θ)有同样的形式。
由于概率对λ积分为1,所以κ(x,θ)=P(x),即P(λ∣x;θ)=P2(λ;θ~)
共轭分布的优势一
- 共轭先验的好处在于保证了后验分布是一个已知形式的闭式解。
- 只要能把P2的参数辨识出来,系数就可以不用在乎。例如先验分布为高斯分布,且是数据分布的共轭分布。那么只需把后验分布的均值和方差通过指数项系数辨识出来。不用在乎常数项。
贝叶斯密度预测
在给定数据集x后,x∗处的密度概率为
P(x∗∣x)=∫P1(x∗∣λ)P(λ∣x;θ)dλ=∫P1(x∗∣λ)P2(λ;θ~)dλ=∫κ(x∗,θ~)P2(λ;θ˘)dλ=κ(x∗,θ~)
共轭分布的优势二
贝叶斯的密度预测结果表达式居然是κ(x∗,θ~),是一个形式简单的闭式解!
总结
对于共轭先验,只要把
P1(x∣λ)P2(λ;θ)=κ(x,θ)P2(λ;θ~)
当中的κ(x,θ)和θ~(x,θ)的表达式搞清楚,就能直接得到贝叶斯参数估计和密度估计的结果。
常见的似然与共轭
似然函数(数据分布) |
共轭先验 |
Bernoulli分布 |
Beta分布 |
多类分布 |
Dirichlet分布 |
高斯分布 |
高斯分布(方差已知) |
一维高斯分布 |
逆Gamma分布(均值已知) |
一维高斯分布 |
正态逆Gamma分布 |
高维高斯分布 |
逆Wishart分布(均值已知) |
高维高斯分布 |
正态逆Wishart分布 |
参考文献:
[1] Prince S J D. Computer vision: models, learning, and inference[M]. Cambridge University Press, 2012. 50-64.