古德-圖靈估計(Good-Turing Estimate) From 《數學之美》(筆記)

第3章 統計語言模型

這是1953年古德(I.J.Good)在他老闆圖靈(Alan Turing)的指導下,提出的在統計中相信可靠的統計數據,而對不可信的統計數據打折扣的一種概率估計方法,同時將折扣出來的那一小部分概率給與未看見的時間(Unseen Events)。古德和圖靈還給出一個很漂亮的重新估算概率的公式,這個公式後來被稱爲古德-圖靈估計(Good-Turing Estimate)。

假定在語料庫中出現r次的詞有Nr個。有,現在假定當r比較小時,它的統計可能不可靠,因此在計算那些出現r次的詞的概率時,要使用一個更小一點的次數,是dr。

古德-圖靈估計按照下面的公式計算dr:

 

以上,吳軍《數學之美》第二版

大數定理:在隨機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。(百度百科)

線性插值:線性插值的幾何意義即爲概述圖中利用過A點和B點的直線來近似表示原函數。(百度百科)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章