《數學之美》第4章 談談分詞 學習筆記

中文分詞方法,最早是北京航空航天大學樑元南教授提出的字典分詞方法,也就是,從左到右掃描句子,然後查字典,按照優先匹配最長詞語的規則進行分詞。

但是,這種方法有一些侷限性。

後來,發展出了基於統計的分詞方法。這種方法的思路是,對於一個句子的多種分詞方法,計算哪種分詞的句子在整個語料中出現的概率最大,則認爲這種分詞方法是最好的。概率的計算方法,可以採用第3章中介紹的馬爾科夫的二元語言模型來計算。

中文分詞以統計語言模型爲基礎,經過幾十年的發展和完善,今天可以認爲是一個已經解決的問題了。

當然,不同的人做的分詞器有好有壞。這裏面的差別主要在於數據的使用和工程實現的精度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章