Windows10下CRF++ 分詞實踐

原創

Hello World程序员

2020-06-07 20:12

步驟如下：
1. 下載 CRF++-0.58.tar.gz，解壓
2. 我們只需要如下三個文件

之後

將這三個文件與所需文件壓縮包內東西解壓放在同一目錄下

下載鏈接：

3. 創建模板文件 tmpl.txt 如下：

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]


# Bigram
B

4.進入Windows shell界面 cd 切換到剛纔解壓好的目錄然後執行如下操作

將訓練語料轉換成crf++需要的格式

python make_crf_train_data.py pku_train.utf8 pku_training_out.utf8

5. 使用訓練，得到model 文件

.\crf_learn tmpl.txt pku_training_out.utf8 pku.model

6. 將測試語料轉換成crf++需要的格式

python make_crf_test_data.py pku_test.utf8 pku_test_out.utf8

7. 得到標註文件，還要用腳本進行轉換，略繁瑣（可以跳過直接進入下一步）

.\crf_test -m pku.model pku_test_out.utf8 > pku_test_result.utf8

8. 執行得到分詞輸出結果

 python crf_segmenter.py pku.model pku_test.utf8 pku_test_word.utf8

9.對分詞結果進行評測

python crf_tag_score.py pku_test_gold.utf8  pku_test_word.utf8

所需文件鏈接：https://download.csdn.net/download/qq_27500493/11223964

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

paoding-rose後端java框架

title: paoding-rose後端java框架 date: 2019-08-29 00:38:25 tags: - paoding-rose categories: java框架 paoding-rose後端java框架

Hello World程序员

2020-07-02 00:32:19

報錯Makefile:15: recipe for target ‘geth‘ failed make: *** [geth] Error 127

報錯 @-UIS-Cell-3010-G3:~/ewasm/go-ethereum$ make geth build/env.sh go run build/ci.go install ./cmd/geth build/env.s

Hello World程序员

2020-07-02 00:32:18

面試筆試題整理

面試筆試題整理 1、乘客在公交車站等車，有兩路公交車A和B，A車十分鐘一趟，B車五分鐘一趟，兩種車沒有任何相關性，求顧客的平均等待時間。（1）每5分鐘來輛A車，每10分鐘來輛B車，平均下來每10分鐘可來3輛車，於是平均等待時間爲10/3

Hello World程序员

2020-06-27 07:49:55

寶塔遷移一鍵部署報錯

寶塔遷移一鍵部署報錯 a duplicate default server for 0.0.0.0:80 in /www/server/panel/vhost/nginx/www 檢查是否設置默認站點，將其關閉！是否開放安全組對應端

Hello World程序员

2020-06-20 18:11:44

前端VUE框架學習總結與分享

開發環境 node v10.13.0 官網編輯器： VS Code 插件 1. vutur ，爲 vue 文件提供代碼高亮 2. Indent-Rainbow ，讓縮進的區域以彩色色塊顯示構建自己的vue模板文件–>

Hello World程序员

2020-06-20 18:11:44

：無法將“truffle”項識別爲 cmdlet、函數、腳本文件或可運行程序的名稱。請檢查名稱。

原文地址 http://www.b2bchain.cn/3119.html 問題描述：：無法將“truffle”項識別爲 cmdlet、函數、腳本文件或可運行程序的名稱。請檢查名稱。解決方法爲： 1、npm config get pr

Hello World程序员

2020-06-20 18:11:44

web3.js與智能合約交互監聽合約事件

原文地址 http://www.b2bchain.cn/3157.html 須監聽event事件！錯誤2：Error: the tx doesn't have the correct nonce. account has non

Hello World程序员

2020-06-20 18:11:44

maven無法拉取設置阿里雲,lombok無法下載

原文鏈接 http://www.b2bchain.cn/1370.html 1. maven設置阿里雲mirror <settings> <localRepository>C:\Users\xxxuser\.m2\reposit

Hello World程序员

2020-06-20 17:12:42

ubuntu安裝編譯以太坊geth客戶端arm

原文地址https://www.b2bchain.cn/3573.html 1.安裝go環境 go語言官方下載地址：https://golang.org/dl/ 下載對應版本版本最好是13.10，老版本會有問題下載之後切換到對應目

Hello World程序员

2020-06-20 17:12:32

寶塔面板CPU佔滿100%，負載100%網站緩慢解決方法

寶塔面板CPU佔滿100%，負載100%網站緩慢解決方法 15 7月寶塔服務器面板cpu、負載都是100%，讓我給解決，說起來很蒙，一般來說這種問題的可能性很多，有可能是程序性能、服務器負載能力、併發訪問、木馬病毒、被植入

Hello World程序员

2020-06-20 17:12:31

web3js調用獲取當前賬戶

個人博客原文 https://www.b2bchain.cn/ web3js調用獲取當前賬戶記得加 , from: web3.eth.accounts[0]} VotingContract.deployed().the

Hello World程序员

2020-06-20 17:12:31

解決windows下使用nvm安裝node時npm報錯

原文地址 http://www.b2bchain.cn/3152.html NVM安裝目錄下 settings.txt 後面加兩行： root: D:\nvm path: D:\nvm\nodejs node_mirror:

Hello World程序员

2020-06-20 17:12:31

IDEA插件顯示

View->Tool Windows->

Hello World程序员

2020-06-16 12:52:25

ifconfig不顯示ip

Hello World程序员

2020-04-20 17:19:22

ls報錯修改環境變量

Hello World程序员

2020-04-19 05:13:02

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章