python | 高效统计语言模型kenlm：新词发现、分词、智能纠错

原創

2020-06-22 14:17

之前看到苏神【重新写了之前的新词发现算法：更快更好的新词发现】中提到了kenlm，之前也自己玩过，没在意，现在遇到一些大规模的文本问题，模块确实好用，前几天还遇到几个差点“弃疗”的坑，解决了之后，就想，不把kenlm搞明白，对不起我浪费的两天。。

kenlm的优点（关于kenlm工具训练统计语言模型）：
训练语言模型用的是传统的“统计+平滑”的方法，使用kenlm这个工具来训练。它快速，节省内存，最重要的是，允许在开源许可下使用多核处理器。
kenlm是一个C++编写的语言模型工具，具有速度快、占用内存小的特点，也提供了Python接口。

额外需要加载的库：

kenlm
pypinyin

可装可不装的库：pycorrector
笔者的代码可见github，只是粗略整理，欢迎大家一起改:

mattzheng/py-kenlm-model

文章目录

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy

AC自動機是多模式匹配的一個經典數據結構，原理是和KMP一樣的構造fail指針，不過AC自動機是在Trie樹上構造的，但原理是一樣的。官方github： https://github.com/WojciechMula/pyahoc

2020-06-22 13:11:15

平民级NER︱pycrfsuite的介绍与应用

2020-02-21 23:53:44

网络表情NLP（一）︱颜文字表情实体识别、属性检测、新颜发现

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

网络表情NLP（二）︱特殊表情包+emoji识别

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函數與功能理解）官方glove教程比

2020-06-06 23:06:36

极简使用︱Gensim-FastText 词向量训练以及OOV（out-of-word）问题有效解决

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。其中，word2vec可見：python︱gensim訓練wo

2020-06-06 23:06:36

NVIDIA的python-GPU算法生态︱ RAPIDS 0.10

2020-02-26 12:07:31

AI智能内容创作的几个方面

2020-02-21 23:53:44

微信对话开放平台智能对话模块的几个亮点

2020-02-21 23:53:44

智能视频生成：阿里系的诸多成果

2020-02-21 23:53:44

电商智能写作：阿里妈妈创意中心智能文案引擎

2020-02-21 23:53:44

python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy

AC自動機是多模式匹配的一個經典數據結構，原理是和KMP一樣的構造fail指針，不過AC自動機是在Trie樹上構造的，但原理是一樣的。官方github： https://github.com/WojciechMula/pyahoc

2020-06-22 13:11:15

网络表情NLP（一）︱颜文字表情实体识别、属性检测、新颜发现

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

网络表情NLP（二）︱特殊表情包+emoji识别

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函數與功能理解）官方glove教程比

2020-06-06 23:06:36

24小時熱門文章

最新文章

最新評論文章