《数学之美》第3章统计语言模型学习笔记

原創

2020-05-20 07:52

基于语法分析的语言模型遇到瓶颈后，科学家逐步将语言模型的实现思路转变到基于数学统计的方法。

贾里尼克的出发点很简单：一个句子是否合理，就看它的可能性大小如何。假设S表示一个有意义的句子，它是由w1w2w3w4w5……wn这n个词语组成，n为句子的长度。我们想知道S在文本中出现的可能性。

这个问题就转化为计算w1w2w3w4w5……wn概率的大小。即P（S）= P（w1w2w3w4w5……wn）。

根据条件概率可得

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

上面的公式，P(w1)比价容易计算，P(w2|w1)也不算太麻烦，但是越往后，计算会越复杂，每个变量的可能性都是一个语言字典的大小。该如何解决这个问题呢？

从19世纪到20世纪初，俄国数学家马尔科夫，提出一种偷懒但十分有效的方法，就是假设任意一个词wi出现的概率之和它前面的词wi-1有关。于是问题就变的简单了。

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

=P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)。。。。。。

这样的语言模型称为二元模型。如果假设w出现的概率和前面两个词有关，模型则称为三元模型。类似的，还有n元模型。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《数学之美》第3章 统计语言模型 学习笔记