中文分詞方法,最早是北京航空航天大學樑元南教授提出的字典分詞方法,也就是,從左到右掃描句子,然後查字典,按照優先匹配最長詞語的規則進行分詞。
但是,這種方法有一些侷限性。
後來,發展出了基於統計的分詞方法。這種方法的思路是,對於一個句子的多種分詞方法,計算哪種分詞的句子在整個語料中出現的概率最大,則認爲這種分詞方法是最好的。概率的計算方法,可以採用第3章中介紹的馬爾科夫的二元語言模型來計算。
中文分詞以統計語言模型爲基礎,經過幾十年的發展和完善,今天可以認爲是一個已經解決的問題了。
當然,不同的人做的分詞器有好有壞。這裏面的差別主要在於數據的使用和工程實現的精度。