拼寫糾錯

拼寫糾錯(Spelling Correction),又稱拼寫檢查(Spelling Checker),往往被用於文字處理軟件、輸入法和搜索引擎。

 

1 拼寫錯誤類型:

1)None-word拼寫錯誤

指詞本身就不合法,如錯誤的將“giraffe”寫成“graffe”

2)Real-word拼寫錯誤

拼寫錯誤後的詞仍然是合法的情況,如將“there”錯誤拼寫爲“three”(形近),將“peace”錯誤拼寫爲“piece”(同音),將“two”錯誤拼寫爲“too”(同音)。

 

2 拼寫糾錯方法

查找詞典中與error最近似的word,常見的方法有smallest edit distance和Highest noisy channel probability。

基於Noisy Channel Model的拼寫糾錯

據統計,80%的拼寫錯誤編輯距離爲1,幾乎所有的拼寫錯誤編輯距離小於等於2。可以對詞生成編輯距離爲1,2 的字符串,作爲拼寫建議候選集。此時,我們希望選擇概率最大的詞作爲最終的拼寫建議,基於噪聲信道模型思想,需要進一步計算P(w)和P(x|w)。

 

Noisy Channel Model即噪聲信道模型,被用於語音識別、拼寫糾錯、機器翻譯、中文分詞、詞性標註、音字轉換等衆多應用領域。形式如下圖所示:

噪聲信道試圖通過帶噪聲的輸出信號恢復輸入信號,形式化定義爲:

應用於拼寫糾錯任務的流程如下:

noisy word 被看作original word通過noisy channel轉換得到,現在已知noisy word(用x表示)如何求得最大可能的original word(用w表示),公式如下:

P(w)爲先驗概率,P(x|w)爲轉移概率,二者可以基於訓練語料庫建立語言模型和轉移矩陣(又稱error model,channel model)得到。


 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章