贝叶斯网络
定义:贝叶斯网络是一个有向无环图(DirectedAcyclicGraph,DAG),有代表变量节点及连接这些节点的有向边构成。节点代表随机变量,节点间的有向边代表了节点间的相互关系(有父节点指向其子节点),用条件概率表达变量间的依赖关系,没有父节点的用先验概率进行信息表达。
令G为定义在{X1,X2,...,Xn}上的一个贝叶斯网络,其联合概率分布可以表示为各个节点的条件概率分布的乘积:
P(X)=i=1∏npi(Xi∣ParG(Xi))
其中,ParG(Xi)为节点Xi的父节点,pi(Xi∣ParG(Xi)为节点条件概率表。
结论:贝叶斯网络的联合概率分布可以表示为:局部 条件概率表 连乘积的形式,(对比马尔可夫模型和因子模型,贝叶斯网络条件概率表的值因为是概率,而不是势函数的大小值,所以不用归一化)。
如上图,D代表试卷难度,I代表智商,G代表考试成绩,S代表高考成绩,L代表是否给该生推荐信。
所以上面这个例子的联合概率密度就可以表示为:
P(D,I,G,S,L)=P(D)⋅P(I)⋅P(G∣I,D)⋅P(S∣I)⋅P(L∣G)
所以其中的一个概率可以计算为:
P(d1,i0,g1,s1,l1)=P(d1)P(i0)P(g1∣I0,d1)P(s1∣i0)P(l0∣g1)=0.4×0.7×0.05×0.1=0.00007
马尔可夫随机场:
定义:马尔可夫随机场(Markov Random Fields,MRF)的联合概率分布可以表示为一下分解形式
P(x1,x2,...,xn)=ZΦ1i=1∏kϕi(Di)
其中,ZΦ为联合概率分布的归一化因子,通常称之为配分函数(partition function),Di是随机变量的集合,因子ϕi(Di)是从随机变量集合到实数域的一个映射,称之为势函数或者因子。
Φ=(ϕ1(D1),ϕ2(D2),...ϕk(Dk))
ZΦ=∑i=1∏kϕi(Di)
联合概率分布可以表示为:局部势函数的连乘积的形式,并归一,局部势函数可以分为:点势函数与边势函数
所以
P(A,B,C,D)=ZΦ1i=1∏kϕi(Di)=ZΦ1ϕ1(A,B)ϕ1(B,C)ϕ1(C,D)ϕ1(D,A)
其中ϕ1(A,B)可以表示为:
⎣⎢⎢⎡a0a0a1a1b0b1b0b1305110⎦⎥⎥⎤
后面的数值就是势函数的值
其中这个图只定义了A,B,C,D之间边的关系,没有定义节点变化的关系,所以可以在原有的式子基础上加上
p(X)=Z1p∏ϕp(xp)p,q∏ϕpq(xp,xq)
势函数也称为因子,表示为多个点的取值限制的函数映射,如点A有两个取值0,1,他的势函数的取值可以是5,10,如点A,B的边,其中B的取值也是0,1,则边的势函数就有四个取值
每个取值对应势函数的一个数值,虽然这些数值不是概率,而且加在一起不是1,但是取值的大小可以代表一种概率发生的大小。
因子图:
p(X)=Z1p∏ϕp(Xp)
联合概率分布可以表示为:局部势函数的连乘积的形式,并归一。
马尔可夫链:
下一刻状态如果只由当前状态决定,就叫一阶马尔可夫链,如果由当前和前一刻,那就叫二阶,同理。所以有m阶马尔可夫链。
隐马尔可夫模型:
在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。
条件随机场:
所以总把HMM和CRF进行比较,主要是因为CRF和HMM都利用了图的知识,但是CRF利用的是马尔科夫随机场(无向图),而HMM的基础是贝叶斯网络(有向图)。而且CRF也有:概率计算问题、学习问题和预测问题。大致计算方法和HMM类似,只不过不需要EM算法进行学习问题。