《数学之美》第3章 统计语言模型 学习笔记

基于语法分析的语言模型遇到瓶颈后,科学家逐步将语言模型的实现思路转变到基于数学统计的方法。

贾里尼克的出发点很简单:一个句子是否合理,就看它的可能性大小如何。假设S表示一个有意义的句子,它是由w1w2w3w4w5……wn这n个词语组成,n为句子的长度。我们想知道S在文本中出现的可能性。

这个问题就转化为计算w1w2w3w4w5……wn概率的大小。即P(S)= P(w1w2w3w4w5……wn)。

根据条件概率可得

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

上面的公式,P(w1)比价容易计算,P(w2|w1)也不算太麻烦,但是越往后,计算会越复杂,每个变量的可能性都是一个语言字典的大小。该如何解决这个问题呢?

从19世纪到20世纪初,俄国数学家马尔科夫,提出一种偷懒但十分有效的方法,就是假设任意一个词wi出现的概率之和它前面的词wi-1有关。于是问题就变的简单了。

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

=P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)。。。。。。

这样的语言模型称为二元模型。如果假设w出现的概率和前面两个词有关,模型则称为三元模型。类似的,还有n元模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章