《數學之美》第3章統計語言模型學習筆記

原創

2020-05-20 07:52

基於語法分析的語言模型遇到瓶頸後，科學家逐步將語言模型的實現思路轉變到基於數學統計的方法。

賈里尼克的出發點很簡單：一個句子是否合理，就看它的可能性大小如何。假設S表示一個有意義的句子，它是由w1w2w3w4w5……wn這n個詞語組成，n爲句子的長度。我們想知道S在文本中出現的可能性。

這個問題就轉化爲計算w1w2w3w4w5……wn概率的大小。即P（S）= P（w1w2w3w4w5……wn）。

根據條件概率可得

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

上面的公式，P(w1)比價容易計算，P(w2|w1)也不算太麻煩，但是越往後，計算會越複雜，每個變量的可能性都是一個語言字典的大小。該如何解決這個問題呢？

從19世紀到20世紀初，俄國數學家馬爾科夫，提出一種偷懶但十分有效的方法，就是假設任意一個詞wi出現的概率之和它前面的詞wi-1有關。於是問題就變的簡單了。

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

=P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)。。。。。。

這樣的語言模型稱爲二元模型。如果假設w出現的概率和前面兩個詞有關，模型則稱爲三元模型。類似的，還有n元模型。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《數學之美》第3章 統計語言模型 學習筆記