基於語法分析的語言模型遇到瓶頸後,科學家逐步將語言模型的實現思路轉變到基於數學統計的方法。
賈里尼克的出發點很簡單:一個句子是否合理,就看它的可能性大小如何。假設S表示一個有意義的句子,它是由w1w2w3w4w5……wn這n個詞語組成,n爲句子的長度。我們想知道S在文本中出現的可能性。
這個問題就轉化爲計算w1w2w3w4w5……wn概率的大小。即P(S)= P(w1w2w3w4w5……wn)。
根據條件概率可得
P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。
上面的公式,P(w1)比價容易計算,P(w2|w1)也不算太麻煩,但是越往後,計算會越複雜,每個變量的可能性都是一個語言字典的大小。該如何解決這個問題呢?
從19世紀到20世紀初,俄國數學家馬爾科夫,提出一種偷懶但十分有效的方法,就是假設任意一個詞wi出現的概率之和它前面的詞wi-1有關。於是問題就變的簡單了。
P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。
=P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)。。。。。。
這樣的語言模型稱爲二元模型。如果假設w出現的概率和前面兩個詞有關,模型則稱爲三元模型。類似的,還有n元模型。