《数学之美》第4章 谈谈分词 学习笔记

中文分词方法,最早是北京航空航天大学梁元南教授提出的字典分词方法,也就是,从左到右扫描句子,然后查字典,按照优先匹配最长词语的规则进行分词。

但是,这种方法有一些局限性。

后来,发展出了基于统计的分词方法。这种方法的思路是,对于一个句子的多种分词方法,计算哪种分词的句子在整个语料中出现的概率最大,则认为这种分词方法是最好的。概率的计算方法,可以采用第3章中介绍的马尔科夫的二元语言模型来计算。

中文分词以统计语言模型为基础,经过几十年的发展和完善,今天可以认为是一个已经解决的问题了。

当然,不同的人做的分词器有好有坏。这里面的差别主要在于数据的使用和工程实现的精度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章