stanford segmenter加入自定義用戶詞典

用stanford segmenter在命令行的方式下對一個文本文件的句子進行分詞處理,其中輸入文件爲:preprocess-$1.txt,輸出文件爲:$1_seged.txt,命令如下所示:

java -mx1g -cp seg.jar edu.stanford.nlp.ie.crf.CRFClassifier
     -sighanCorporaDict data
     -loadClassifier data/ctb.gz
     -testFile preprocess-$1.txt
     -inputEncoding UTF-8
     -sighanPostProcessing true
     -serDictionary data/dict-chris6.ser.gz,data/cedict.txt,data/ntusd.txt
     -keepAllWhitespaces false >$1_seged.txt


       其中data/dict-chris6.ser.gz爲自帶的詞典庫壓縮文件,data/cedict.txt,data/ntusd.txt爲用戶自定義的兩個詞典文件,詞典文件的數據格式是每一行爲一個詞。
    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章