《數學之美》第3章 統計語言模型 學習筆記

基於語法分析的語言模型遇到瓶頸後,科學家逐步將語言模型的實現思路轉變到基於數學統計的方法。

賈里尼克的出發點很簡單:一個句子是否合理,就看它的可能性大小如何。假設S表示一個有意義的句子,它是由w1w2w3w4w5……wn這n個詞語組成,n爲句子的長度。我們想知道S在文本中出現的可能性。

這個問題就轉化爲計算w1w2w3w4w5……wn概率的大小。即P(S)= P(w1w2w3w4w5……wn)。

根據條件概率可得

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

上面的公式,P(w1)比價容易計算,P(w2|w1)也不算太麻煩,但是越往後,計算會越複雜,每個變量的可能性都是一個語言字典的大小。該如何解決這個問題呢?

從19世紀到20世紀初,俄國數學家馬爾科夫,提出一種偷懶但十分有效的方法,就是假設任意一個詞wi出現的概率之和它前面的詞wi-1有關。於是問題就變的簡單了。

P(w1,w2,w3,w4,w5) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。。。。

=P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)。。。。。。

這樣的語言模型稱爲二元模型。如果假設w出現的概率和前面兩個詞有關,模型則稱爲三元模型。類似的,還有n元模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章