python | 高效统计语言模型kenlm:新词发现、分词、智能纠错

之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。

kenlm的优点(关于kenlm工具训练统计语言模型):
训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。
kenlm是一个C++编写的语言模型工具,具有速度快、占用内存小的特点,也提供了Python接口。

额外需要加载的库:

kenlm
pypinyin

可装可不装的库:pycorrector
笔者的代码可见github,只是粗略整理,欢迎大家一起改:

mattzheng/py-kenlm-model


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章