《數學之美》第4章談談分詞學習筆記

原創

2020-05-20 15:15

中文分詞方法，最早是北京航空航天大學樑元南教授提出的字典分詞方法，也就是，從左到右掃描句子，然後查字典，按照優先匹配最長詞語的規則進行分詞。

但是，這種方法有一些侷限性。

後來，發展出了基於統計的分詞方法。這種方法的思路是，對於一個句子的多種分詞方法，計算哪種分詞的句子在整個語料中出現的概率最大，則認爲這種分詞方法是最好的。概率的計算方法，可以採用第3章中介紹的馬爾科夫的二元語言模型來計算。

中文分詞以統計語言模型爲基礎，經過幾十年的發展和完善，今天可以認爲是一個已經解決的問題了。

當然，不同的人做的分詞器有好有壞。這裏面的差別主要在於數據的使用和工程實現的精度。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章