共轭先验的概念和优势——CVMLI Prince读书随笔第4章

什么是共轭性

一个分布PP是另一个分布QQ的共轭,则这两个分布相乘,分布形式与PP相同(同族)。

共轭先验与贝叶斯方法

对于已有数据集x\mathbf x,记似然估计为P1(xλ)P_1(\bf x|\lambda),其中λ\lambda是参数,先验分布为P2(λ;θ)P_2(\lambda;\theta),其中θ\theta是参数先验分布的已知有关参数。

则参数的后验分布可以写为
P(λx;θ)=P1(xλ)P2(λ;θ)P(x) P(\lambda| \mathbf{x}; \theta) = \frac{P_1(\mathbf x|\lambda)P_2(\lambda;\theta)}{P(\bf x)}

如果P2P_2P1P_1的共轭分布,则
P1(xλ)P2(λ;θ)=κ(x,θ)P2(λ;θ~) P_1(\mathbf x|\lambda)P_2(\lambda;\theta) = \kappa (\mathbf x, \theta) P_2(\lambda; \tilde \theta)

其中κ(x,θ)\kappa(\mathbf x, \theta)是一个λ\lambda无关的常数,P2(λ;θ~)P_2(\lambda; \tilde \theta)P2(λ;θ)P_2(\lambda; \theta)有同样的形式。
由于概率对λ\lambda积分为1,所以κ(x,θ)=P(x)\kappa(\mathbf x, \theta) =P(\mathbf x),即P(λx;θ)=P2(λ;θ~)P(\lambda| \mathbf x; \theta)=P_2(\lambda; \tilde \theta)

共轭分布的优势一

  • 共轭先验的好处在于保证了后验分布是一个已知形式的闭式解。
  • 只要能把P2P_2的参数辨识出来,系数就可以不用在乎。例如先验分布为高斯分布,且是数据分布的共轭分布。那么只需把后验分布的均值和方差通过指数项系数辨识出来。不用在乎常数项。

贝叶斯密度预测

在给定数据集x\mathbf x后,xx^*处的密度概率为
P(xx)=P1(xλ)P(λx;θ)dλ=P1(xλ)P2(λ;θ~)dλ=κ(x,θ~)P2(λ;θ˘)dλ=κ(x,θ~) \begin{aligned} P(x^*| \mathbf x) &= \int P_1(x^* | \lambda)P(\lambda|\mathbf x; \theta)d\lambda \\ &=\int P_1(x^*|\lambda)P_2(\lambda; \tilde \theta)d\lambda \\ &= \int \kappa(x^*, \tilde \theta)P_2(\lambda; \breve \theta) d\lambda \\ &= \kappa(x^*, \tilde \theta) \end{aligned}

共轭分布的优势二

贝叶斯的密度预测结果表达式居然是κ(x,θ~)\kappa(x^*, \tilde \theta),是一个形式简单的闭式解!

总结

对于共轭先验,只要把
P1(xλ)P2(λ;θ)=κ(x,θ)P2(λ;θ~) P_1(\mathbf x|\lambda)P_2(\lambda;\theta) = \kappa (\mathbf x, \theta) P_2(\lambda; \tilde \theta)
当中的κ(x,θ)\kappa (\mathbf x, \theta)θ~(x,θ)\tilde \theta (\mathbf x, \theta)的表达式搞清楚,就能直接得到贝叶斯参数估计和密度估计的结果。

常见的似然与共轭

似然函数(数据分布) 共轭先验
Bernoulli分布 Beta分布
多类分布 Dirichlet分布
高斯分布 高斯分布(方差已知)
一维高斯分布 逆Gamma分布(均值已知)
一维高斯分布 正态逆Gamma分布
高维高斯分布 逆Wishart分布(均值已知)
高维高斯分布 正态逆Wishart分布

参考文献:
[1] Prince S J D. Computer vision: models, learning, and inference[M]. Cambridge University Press, 2012. 50-64.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章