自然語言處理基礎(4)--數據平滑技術

        n元語法模型中,在統計結果中出現了零概率事件反映語言的規律性,即這種現象本來就不該出現,但更多的時候是由於語言模型的訓練文本T的規模以及其分佈存在着一定的侷限性和片面性。這就是所謂的“數據稀疏”問題。

        所謂“數據平滑技術”,是指爲了產生更準確的概率來調整最大似然估計的技術,基本思想就是提高低概率(如零概率),降低低概率,儘量使概率分佈趨於平均。

     1.Laplace法則

        每個實例(分子)的出現次數都加1(或者其他數值),從而所有實例出現次數都不會爲0,,爲了保證所有實例的概率總和爲1,將分母增加實例的種類數;即:

                                                                    

      2.Good-Turing估計

        基本思想是:對於任何一個發生r次的n-gram,都假設它發生r*次,即:

                                                                                                                       

      3.絕對摺扣和線性折扣

        在絕對摺扣找你哥,所有的非零MLE概率用一個小的常數折扣,由此得到的概率被均勻分配到未知事件上。

        與絕對摺扣不同,線性折扣中,所有的非零MLE頻率的折扣量與其自身的頻率值成線性關係

      4.Witten-Bell平滑算法

        這個算法的思想是:如果測試過程中的一個實例在訓練語料中未出現,那麼,它就是一個新事物,也就是說,這是它第一次出現,可以用在訓練語料中看到新實例的概率來代替未出現實例的概率。

      5.扣留估計算法

        這個算法的思想是:把訓練數據分成兩部分,一部分建立最初的模型,然後另一部分來精煉這個模型,具體公式見《自然語言處理基本理論和方法》

      6.交叉校驗算法

        扣留估計算法有個缺點,就是最初的訓練數據比較少的時候,得到的概率估計是不可靠的

        交叉校驗的思想在於,訓練數據的每一部分既作爲最初訓練數據,又作爲留存數據,對這兩部分數據分別訓練和平滑,然後根據n0相對於n1的比率進行加權,具體公式見《自然語言處理基本理論和方法》

      7.刪除插值法和Katz回退算法

        如果兩對詞同時出現0次:C(send the) = C(send thou) = 0,按照之前任何一個平滑方法都得到兩個概率相等,但是明顯前者要大於後者的。

        刪除插值法是這樣做的

                                     

         可以說,刪除插值和Katz回退法都使用低階分佈的信息來確定計數爲0的n元語法的概率;不同的是:在Katz回退中,只有高階計數爲0時才啓用低階計數,而刪除插值中,高階計數和低階計數同時起作用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章