贝叶斯网络参数学习

参考:

https://zhuanlan.zhihu.com/p/355765619

https://zhuanlan.zhihu.com/p/61593112

贝叶斯网络参数学习(实质上是在已知网络结构的条件下,来学习每个节点的概率分布表

如前所述,一个贝叶斯网络包含定性和定量两个方面的内容:定性内容包括变量之间的网络结构;定量内容则包括各变量的概率分布.贝叶斯网络参数学习的目标是:给定网络拓扑结构G 和训练样本集D,利用先验知识,确定贝叶斯网络模型各节点处的条件概率分布.一般,先验分布服从一定的概率分布族,如 β分布、多项分布、正态分布、泊松分布;然后利用一定的策略估计这些分布的参数.由于贝叶斯网络主要处理的是离散变量,对连续变量要经过一定的离散化处理,而离散变量又以 β 分布和多项分布最为常见,如在自然语言处理、图像识别和信息检索等应用中,这两种分布形式都受到普遍的青睐.下面我们主要介绍这两种分布:对于定义在[0,1]之间的变量的概率分布,存在一个离散的样本空间,如果变量具有两个状态,那么它服从 β 分布;如果变量具有两个以上的状态,那么它服从多项 Dirichlet 分布.

 

1、极大似然估计

极大似然估计是典型的频率学派观点,它的基本思想是:待估计参数 [公式] 是客观存在的,只是未知而已,当 [公式] 满足“ [公式] 时,该组观测样本 [公式] 更容易被观测到“,我们就说 [公式][公式] 的极大似然估计值。也即,估计值 [公式] 使得事件发生的可能性最大。

下面给出极大似然估计的数学描述:

[公式]

最大似然估计 完全基于数据,不需要先验概率

2、贝叶斯估计

贝叶斯估计是典型的贝叶斯学派观点,它的基本思想是:待估计参数 [公式] 也是随机的,和一般随机变量没有本质区别,因此只能根据观测样本估计参数 [公式] 的分布。

贝叶斯估计利用了贝叶斯公式,给出贝叶斯公式的数学描述:

[公式]

下面给出贝叶斯估计的数学描述:

[公式]

其中, [公式] 为参数 [公式] 的先验分布(prior distribution),表示对参数 [公式] 的主观认识,是非样本信息, [公式] 为参数 [公式] 的后验分布(posterior distribution)。因此,贝叶斯估计可以看作是,在假定 [公式] 服从 [公式] 的先验分布前提下,根据样本信息去校正先验分布,得到后验分布 [公式] 。由于后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。

贝叶斯估计 假定在考虑数据之前,网络参数服从某个先验分布。先验的主观概率,它的影响随着数据量的增大而减小 一般假设参数是服从狄利克雷(Dirichlet)

 

2.1、最大后验估计

在贝叶斯估计中,如果我们采用极大似然估计的思想,考虑后验分布极大化而求解 [公式] ,就变成了最大后验估计(Maximum A Posteriori estimation,MAP):

[公式]

由于 [公式][公式] 无关,因此简化了计算。

作为贝叶斯估计的一种近似解,MAP有其存在的价值,因为贝叶斯估计中后验分布的计算往往是非常棘手的;而且,MAP并非简单地回到极大似然估计,它依然利用了来自先验的信息,这些信息无法从观测样本获得。

对上面的式子稍作处理:

[公式]

如果将机器学习结构风险中的正则化项对应为上式的 [公式] ,那么带有正则化项的最大似然学习就可以被解释为MAP。当然,这并不是总是正确的,例如,有些正则化项可能不是一个概率分布的对数,还有些正则化项依赖于数据,当然也不会是一个先验概率分布。不过,MAP提供了一个直观的方法来设计复杂但可解释的正则化项,例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。

2.2、共轭先验

在贝叶斯估计中,如果选取先验分布 [公式] ,使得后验分布 [公式][公式] 属于同一分布簇(即共轭分布),则称 [公式] 为似然函数 [公式] 的共轭先验。

共轭先验的选取有如下好处:a).符合直观,先验分布和后验分布应该是相同形式的;b).可以给出后验分布的解析形式;c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。

很显然,共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。关于这些,读者可自行了解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章