《数学之美》第4章谈谈分词学习笔记

原創

2020-05-20 15:15

中文分词方法，最早是北京航空航天大学梁元南教授提出的字典分词方法，也就是，从左到右扫描句子，然后查字典，按照优先匹配最长词语的规则进行分词。

但是，这种方法有一些局限性。

后来，发展出了基于统计的分词方法。这种方法的思路是，对于一个句子的多种分词方法，计算哪种分词的句子在整个语料中出现的概率最大，则认为这种分词方法是最好的。概率的计算方法，可以采用第3章中介绍的马尔科夫的二元语言模型来计算。

中文分词以统计语言模型为基础，经过几十年的发展和完善，今天可以认为是一个已经解决的问题了。

当然，不同的人做的分词器有好有坏。这里面的差别主要在于数据的使用和工程实现的精度。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

python gdal 安装使用（Windows， python 3.6.8）

最新文章

最新評論文章