中文分词方法,最早是北京航空航天大学梁元南教授提出的字典分词方法,也就是,从左到右扫描句子,然后查字典,按照优先匹配最长词语的规则进行分词。
但是,这种方法有一些局限性。
后来,发展出了基于统计的分词方法。这种方法的思路是,对于一个句子的多种分词方法,计算哪种分词的句子在整个语料中出现的概率最大,则认为这种分词方法是最好的。概率的计算方法,可以采用第3章中介绍的马尔科夫的二元语言模型来计算。
中文分词以统计语言模型为基础,经过几十年的发展和完善,今天可以认为是一个已经解决的问题了。
当然,不同的人做的分词器有好有坏。这里面的差别主要在于数据的使用和工程实现的精度。