步驟如下:
1. 下載 CRF++-0.58.tar.gz, 解壓
2. 我們只需要如下三個文件
之後
將這三個文件與所需文件壓縮包內東西解壓放在同一目錄下
下載鏈接:
3. 創建 模板文件 tmpl.txt 如下:
# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
# Bigram
B
4.進入Windows shell界面 cd 切換到剛纔解壓好的目錄 然後執行如下操作
將訓練語料轉換成crf++需要的格式
python make_crf_train_data.py pku_train.utf8 pku_training_out.utf8
5. 使用訓練,得到model 文件
.\crf_learn tmpl.txt pku_training_out.utf8 pku.model
6. 將測試語料轉換成crf++需要的格式
python make_crf_test_data.py pku_test.utf8 pku_test_out.utf8
7. 得到標註文件,還要用腳本進行轉換,略繁瑣(可以跳過直接進入下一步 )
.\crf_test -m pku.model pku_test_out.utf8 > pku_test_result.utf8
8. 執行得到分詞輸出結果
python crf_segmenter.py pku.model pku_test.utf8 pku_test_word.utf8
9.對分詞結果進行評測
python crf_tag_score.py pku_test_gold.utf8 pku_test_word.utf8
所需文件鏈接:https://download.csdn.net/download/qq_27500493/11223964