Manjaro下安裝使用kenlm

原創

2019-02-16 13:59

kenlm是一個linux下快速輕量的語言模型訓練工具。

下載

git clone https://github.com/kpu/kenlm.git

或者

wget https://kheafield.com/code/kenlm.tar.gz | tar xz

安裝依賴

yay -S boost eigen

編譯安裝

以上兩種來源區別我也不是很清楚，沒有細究。

mkdir kenlm/build
cd kenlm/build
cmake ..
make -j8
make install

安裝Python庫

以上下載的文件中有python安裝腳本setup.py文件，執行

python setup.py install

或者，

pip install https://github.com/kpu/kenlm/archive/master.zip

或者從pypi源安裝，

pip install kenlm

訓練模型

準備訓練數據

首先我們需要有一個分好詞的語料文件，如：

訓練

然後使用以下命令訓練：

lmplz -o 3 <pku_training.utf8> lm_ng3.arpa

其中-o參數指明n-gram語法爲3，<>中的爲訓練語料路徑，後面跟模型保存路徑

模型壓縮

對模型壓縮可以提高加載速度，不壓縮也可以

build_binary -s lm_ng3.arpa lm_ng3.bin

使用Python接口

import kenlm
import jieba
model = kenlm.LanguageModel('./lm_ng3.bin')
sent_1 = '哈哈，我是李磊，你好呀'
sent_2 = '安賽飛啊，誒愛爾蘭'
def process(sent):
  return ' '.join(jieba.cut(sent))
print(model.score(process(sent_1))
print(model.score(process(sent_2))

結果輸出：

-40.40456008911133
-47.40667724609375

其中，分數越小，句子分數越低，越”不像“一個句子。

參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Manjaro下安裝使用kenlm

下載

安裝依賴

編譯安裝

安裝Python庫

訓練模型

準備訓練數據

訓練

模型壓縮

使用Python接口

參考

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

『圖』不鄰接植花1042

『位運算』將數字變成 0 的操作次數1342

『字典樹』單詞的壓縮編碼820

『圖；廣度優先遍歷』地圖分析1162

『圖』鑰匙和房間841

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結