自然語言處理基礎（4）--數據平滑技術

n元語法模型中，在統計結果中出現了零概率事件反映語言的規律性，即這種現象本來就不該出現，但更多的時候是由於語言模型的訓練文本T的規模以及其分佈存在着一定的侷限性和片面性。這就是所謂的“數據稀疏”問題。

所謂“數據平滑技術”，是指爲了產生更準確的概率來調整最大似然估計的技術，基本思想就是提高低概率（如零概率），降低低概率，儘量使概率分佈趨於平均。

每個實例（分子）的出現次數都加1（或者其他數值），從而所有實例出現次數都不會爲0,，爲了保證所有實例的概率總和爲1，將分母增加實例的種類數；即：

基本思想是：對於任何一個發生r次的n-gram，都假設它發生r*次，即：

在絕對摺扣找你哥，所有的非零MLE概率用一個小的常數折扣，由此得到的概率被均勻分配到未知事件上。

與絕對摺扣不同，線性折扣中，所有的非零MLE頻率的折扣量與其自身的頻率值成線性關係

這個算法的思想是：如果測試過程中的一個實例在訓練語料中未出現，那麼，它就是一個新事物，也就是說，這是它第一次出現，可以用在訓練語料中看到新實例的概率來代替未出現實例的概率。

這個算法的思想是：把訓練數據分成兩部分，一部分建立最初的模型，然後另一部分來精煉這個模型，具體公式見《自然語言處理基本理論和方法》

扣留估計算法有個缺點，就是最初的訓練數據比較少的時候，得到的概率估計是不可靠的

交叉校驗的思想在於，訓練數據的每一部分既作爲最初訓練數據，又作爲留存數據，對這兩部分數據分別訓練和平滑，然後根據n0相對於n1的比率進行加權，具體公式見《自然語言處理基本理論和方法》

如果兩對詞同時出現0次：C(send the) = C(send thou) = 0，按照之前任何一個平滑方法都得到兩個概率相等，但是明顯前者要大於後者的。

刪除插值法是這樣做的

可以說，刪除插值和Katz回退法都使用低階分佈的信息來確定計數爲0的n元語法的概率；不同的是：在Katz回退中，只有高階計數爲0時才啓用低階計數，而刪除插值中，高階計數和低階計數同時起作用。