語言模型定義
語言模型是用來計算一個句子的概率的模型,也就是判斷一句話是否合理的概率
N-gram模型
是一種基於統計的語言模型
基於統計概率,計算一個句子的概率大小概率的公式爲:
當概率值越大,則說明句子越合理,概率小,則說明不合理
上面的公式不能直接進行計算,使用條件概率可以將上述公式轉換成:
條件概率:
P(B|A)表示:A條件下B發生的概率
在條件概率的公式如下所示:
直接將計算一個句子的公式按照條件概率展開計算,即對每一個詞都考慮到它前面的所有詞,這在實際應用中意義不大,因此引出N-gram模型
1)馬爾可夫假設
馬爾可夫假設是指每個詞出現的概率只跟它前面的少數幾個詞有關,例如,二階馬爾可夫假設只考慮前面兩個詞,相應的語言模型是三元模型
一元模型(unigram model):
二元模型(bigram model):
三元模型(trigram model):
2)極大似然估計
可以通過對訓練語料做極大似然估計:
3)鏈式法則
以二元模型爲例,
N-gram模型的優缺點
1)優點
訓練方便,僅僅是一個統計詞頻的工作
2)缺點
無法獲得相對較長的上下文依賴
泛化能力比較弱,只是基於頻次進行統計,更多的特徵信息沒有學到,也沒辦法進行學到