1.概率图
在统计概率图(probability graph models)中,参考宗成庆老师的书:
在概率图模型中,数据(样本)由公式建模表示:
- 表示节点,即随机变量(放在此处的,可以是一个token或者一个label),具体地,用 为随机变量建模,注意现在是代表了一批随机变量(想象对应一条sequence,包含了很多的token),为这些随机变量的分布;
- 表示边,即概率依赖关系,label和label之间的关系。
1.1.有向图 vs. 无向图
上图可以看到,贝叶斯网络(信念网络)都是有向的,马尔科夫网络无向。所以,贝叶斯网络适合为有单向依赖的数据建模
,马尔科夫网络适合实体之间互相依赖的建模。
具体地,他们的核心差异表现在如何求 ,即怎么表示 这个的联合概率。
1.1.1.有向图
对于有向图模型,这么求联合概率:
应该这样表示他们的联合概率:
应该很好理解吧。
1.1.2.无向图
对于无向图,一般就指马尔科夫网络。
如果一个graph太大,可以用因子分解将 写为若干个联合概率的乘积。咋分解呢,将一个图分为若干个“小团”,注意每个团必须是“最大团”(就是里面任何两个点连在了一块,具体……算了不解释,有点“最大连通子图”的感觉),则有:
, 其中 ,公式应该不难理解吧,归一化是为了让结果算作概率。
所以像上面的无向图:
其中, 是一个最大团 上随机变量们的联合概率,一般取指数函数的:
好了,管这个东西叫做势函数。注意 是否有看到CRF的影子。
那么概率无向图的联合概率分布可以在因子分解下表示为:
1.2.马尔科夫假设&马尔科夫性
这个也属于前馈知识。
马尔科夫假设
应该是齐次马尔科夫假设,这样假设:马尔科夫链$(x_1,...,x_2)$里的$x_1$总是只受$x_{i-1}$一个人的影响。
马尔科夫假设这里相当于就是个2-gram,自然语言处理中,即一个词只受前一个词的影响。
马尔科夫过程呢?即,在一个过程中,每个状态的转移只依赖于前n个状态,并且只是个n阶的模型。最简单的马尔科夫过程是一阶的,即只依赖于前一个状态。
- 马尔科夫性
马尔科夫性是保证或者判断概率图是否为概率无向图的条件。
三点内容:a. 成对,b. 局部,c. 全局。
1.3.序列建模
为了号召零门槛理解,现在解释如何为序列问题建模。
序列包括时间序列以及普通序列,但两者无异。连续的序列在分析时也会先离散化处理。常见的序列有如:时序数据、句子、语音数据等等。
广义下的序列有这些特点:
- 节点之间有关联依赖性/无关联依赖性
- 序列的节点是随机的/确定的
- 序列是线性变化/非线性的
- ……
对不同的序列有不同的问题需求,常见的序列建模方法总结有如下:
(1)拟合
,预测未来节点(或走势分析):
a. 常规序列建模方法:AR、MA、ARMA、ARIMA
b. 回归拟合
c. Neural Networks
(2)判断不同序列类别
,即分类问题:HMM、CRF、General Classifier(ML models、NN models)
(3)不同时序对应的状态的分析,即序列标注问题:HMM、CRF、RecurrentNNs
2.概率无向图模型
概率无向图模型(probabilistic undirected graphical model),又称马尔科夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。
图(graph)由结点(vertex)和连接结点的边(edge)组成的集合。结点和边分别记做v和e,结点和边的集合分别记做V和E,图记做G=(V,E),无向图指的是边没有方向的图。
概率图模型(probabilistic graphical model)是由图表示的概率分布。设有联合概率分布P(Y),Y是随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图中,结点表示一个随机变量,,边表示随机变量之间的概率依赖关系。
给定一个联合概率分布P(Y)和表示它的无向图G,下面定义无向图表示的随机变量之间存在的成对马尔科夫性(pairwise Markov property)、局部马尔科夫性(local Markov property)和全局马尔科夫性(global Markov property)。
- 成对马尔科夫性
设u和v是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量和,所有其他结点记为O,对应的随机变量是。
成对马尔科夫性是指给定随机变量的条件下随机变量和是条件独立的,即
- 局部马尔科夫性
设是无向图G中任意一个结点,W是与v有边连接的所有结点,O是v,W以外的其他所有结点,v表示的随机变量是,W表示的随机变量是,O表示的随机变量是。
局部马尔科夫性是指在给定随机变量的条件下随机变量与随机变量是独立的,即
如图所示:
- 全局马尔科夫性
设结点集合A,B是在无向图G中被结点集合C分开的任意结点集合,结点集合A,B和C所对应的随机变量分别是,,
全局马尔科夫性是指给定随机变量条件下随机变量和是条件独立的,即:
概率无向图模型的定义:
设有联合概率分布P(Y),由无向图G=(V,E)表示,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔科夫,则称此联合概率分布为概率无向图模型(probability undirected graphical model),或马尔科夫随机场(Markov random filed)
2.1.概率无向图模型的因子分解
对给定的概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积的形式,也就是将联合概率进行因子分解。
无向图G中任何两个结点均有边连接的结点子集
称为团(clique),并且不能再加进任何一个G的结点使其成为一个更大的团,则称C为最大团(maximal clique)。
例子:
图中由两个结点组成的团有5个:(Y1,Y2),(Y1,Y3),(Y3,Y2),(Y4,Y3),(Y4,Y2)
有两个最大团:(Y1,Y2,Y3),(Y3,Y2,Y4)
(Y1,Y2,Y3,Y4)不是一个团,因为Y1和Y4没有边连接。
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函效的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。
给定概率无向图模型,设其无向图为G,C为G上的最大团,表示C对应的随机変量。那么概率无向图模型的联合概率分布P(Y)可写作图中所有最大团C上的函数的乘积形式,即
Y表示所有的随机变量;
其中,Z是规范化因子(normalization factor),定义如下:
规范化因子保证P(Y)构成一个概率分布,函数称为势函数(potential function),定义如下:
概率无向图模型的因子分解的定义:
概率无向图模型的联合概率分布P(Y)定义如下:
C是无向图的最大团
是C的结点对应的随机变量
是C上定义的势函数
乘积在无向图上所有最大团上进行的。