Windows10下CRF++ 分詞實踐

步驟如下: 
1. 下載 CRF++-0.58.tar.gz, 解壓
2. 我們只需要如下三個文件 


之後

將這三個文件與所需文件壓縮包內東西解壓放在同一目錄下

下載鏈接:

 

3. 創建 模板文件 tmpl.txt 如下:

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]


# Bigram
B

4.進入Windows shell界面 cd 切換到剛纔解壓好的目錄  然後執行如下操作

  將訓練語料轉換成crf++需要的格式

python make_crf_train_data.py pku_train.utf8 pku_training_out.utf8 

5. 使用訓練,得到model 文件   

.\crf_learn tmpl.txt pku_training_out.utf8 pku.model


6. 將測試語料轉換成crf++需要的格式

python make_crf_test_data.py pku_test.utf8 pku_test_out.utf8


7. 得到標註文件,還要用腳本進行轉換,略繁瑣(可以跳過直接進入下一步 )  

.\crf_test -m pku.model pku_test_out.utf8 > pku_test_result.utf8 


8. 執行得到分詞輸出結果

 python crf_segmenter.py pku.model pku_test.utf8 pku_test_word.utf8 

9.對分詞結果進行評測 

python crf_tag_score.py pku_test_gold.utf8  pku_test_word.utf8


所需文件鏈接:https://download.csdn.net/download/qq_27500493/11223964

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章