从贝叶斯网络到条件随机场

贝叶斯网络

定义:贝叶斯网络是一个有向无环图DirectedAcyclicGraphDAG(Directed Acyclic Graph,DAG),有代表变量节点及连接这些节点的有向边构成。节点代表随机变量,节点间的有向边代表了节点间的相互关系(有父节点指向其子节点),用条件概率表达变量间的依赖关系,没有父节点的用先验概率进行信息表达。
在这里插入图片描述
GG为定义在{X1,X2,...,Xn}\{X_1,X_2,...,X_n\}上的一个贝叶斯网络,其联合概率分布可以表示为各个节点的条件概率分布的乘积:
P(X)=i=1npi(XiParG(Xi)) P(X) = \prod \limits_{i=1}^{n}p_i(X_i|Par_G(X_i))
其中,ParG(Xi)Par_G(X_i)为节点XiX_i的父节点,pi(XiParG(Xi)p_i(X_i|Par_G(X_i)为节点条件概率表。

结论:贝叶斯网络的联合概率分布可以表示为:局部 条件概率表 连乘积的形式,(对比马尔可夫模型和因子模型,贝叶斯网络条件概率表的值因为是概率,而不是势函数的大小值,所以不用归一化)。
在这里插入图片描述
如上图,D代表试卷难度,I代表智商,G代表考试成绩,S代表高考成绩,L代表是否给该生推荐信。
所以上面这个例子的联合概率密度就可以表示为:
P(D,I,G,S,L)=P(D)P(I)P(GI,D)P(SI)P(LG) P(D,I,G,S,L) = P(D)·P(I)·P(G|I,D)·P(S|I)·P(L|G)
所以其中的一个概率可以计算为:
P(d1,i0,g1,s1,l1)=P(d1)P(i0)P(g1I0,d1)P(s1i0)P(l0g1)=0.4×0.7×0.05×0.1=0.00007 P(d^1,i^0,g^1,s^1,l^1)=P(d^1)P(i^0)P(g^1|I^0,d^1)P(s^1|i^0)P(l^0|g^1)=0.4×0.7×0.05×0.1=0.00007

马尔可夫随机场:

定义:马尔可夫随机场(Markov Random Fields,MRF)的联合概率分布可以表示为一下分解形式
P(x1,x2,...,xn)=1ZΦi=1kϕi(Di) P(x_1,x_2,...,x_n)=\frac{1}{Z_\Phi}\prod \limits_{i=1}^{k}\phi_i(D_i)
其中,ZΦZ_\Phi为联合概率分布的归一化因子,通常称之为配分函数(partition function),DiD_i是随机变量的集合,因子ϕi(Di)\phi_i(D_i)是从随机变量集合到实数域的一个映射,称之为势函数或者因子
Φ=(ϕ1(D1),ϕ2(D2),...ϕk(Dk)) \Phi = (\phi_1(D_1),\phi_2(D_2),...\phi_k(D_k))
ZΦ=i=1kϕi(Di) Z_\Phi=\sum \limits_{} ^{}\prod \limits_{i=1}^{k}\phi_i(D_i)
联合概率分布可以表示为:局部势函数的连乘积的形式,并归一,局部势函数可以分为:点势函数与边势函数
在这里插入图片描述
所以
P(A,B,C,D)=1ZΦi=1kϕi(Di)=1ZΦϕ1(A,B)ϕ1(B,C)ϕ1(C,D)ϕ1(D,A) P(A,B,C,D) =\frac{1}{Z_\Phi}\prod \limits_{i=1}^{k}\phi_i(D_i)=\frac{1}{Z_\Phi}\phi_1(A,B)\phi_1(B,C)\phi_1(C,D)\phi_1(D,A)
其中ϕ1(A,B)\phi_1(A,B)可以表示为:

[a0b030a0b15a1b01a1b110]\left[ \begin{array}{ccc} a^0 & b^0 & 30\\ a^0 & b^1 & 5\\ a^1 & b^0 & 1\\ a^1 & b^1 & 10\\ \end{array} \right]

后面的数值就是势函数的值
其中这个图只定义了A,B,C,D之间边的关系,没有定义节点变化的关系,所以可以在原有的式子基础上加上
p(X)=1Zpϕp(xp)p,qϕpq(xp,xq) p(X)=\frac{1}{Z}\prod \limits_{p}^{}\phi_p(x_p)\prod \limits_{p,q}^{}\phi_{pq}(x_p,x_q)

势函数也称为因子,表示为多个点的取值限制的函数映射,如点A有两个取值0,1,他的势函数的取值可以是5,10,如点A,B的边,其中B的取值也是0,1,则边的势函数就有四个取值
每个取值对应势函数的一个数值,虽然这些数值不是概率,而且加在一起不是1,但是取值的大小可以代表一种概率发生的大小。

因子图:

p(X)=1Zpϕp(Xp) p(X)=\frac{1}{Z}\prod \limits_{p}^{}\phi_p(X_p)

联合概率分布可以表示为:局部势函数的连乘积的形式,并归一。

马尔可夫链:

下一刻状态如果只由当前状态决定,就叫一阶马尔可夫链,如果由当前和前一刻,那就叫二阶,同理。所以有m阶马尔可夫链。

隐马尔可夫模型:

在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。

条件随机场:

所以总把HMM和CRF进行比较,主要是因为CRF和HMM都利用了图的知识,但是CRF利用的是马尔科夫随机场(无向图),而HMM的基础是贝叶斯网络(有向图)。而且CRF也有:概率计算问题、学习问题和预测问题。大致计算方法和HMM类似,只不过不需要EM算法进行学习问题。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章