之前一直沒有試過讀取文件來加入用戶詞典,用的都是 NLPIR_AddUserWord手工添加用戶詞典,但是這個方法比較適合添加個別詞,詞一多就不太適合
NLPIR提供了一個NLPIR_ImportUserDict(byte[]sPath)導入用戶詞典的接口。試着用了下,發現都沒有導入成功。
原來的版本
新版(ICTCLAS2013)應該改爲
1.詞語與詞性用TAB鍵隔開;
2.詞與詞,';'貌似不行,我每行一個詞,成功;
例如:
中科院 n
分詞系統 n
前面是NLPIR初始化
String UserDictPath="../file/test.txt";//用戶詞典URL
int dict=testNLPIR.NLPIR_ImportUserDict(UserDictPath.getBytes());//返回的結果是用戶詞個數
nativeBytes= testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("utf-8"), 1);
nativeStr = new String(nativeBytes, 0, nativeBytes.length, "utf-8");
System.out.println(dict+"導入詞典: " + nativeStr);
model.addAttribute("fenci1",nativeStr);
testNLPIR.NLPIR_Exit();
結果
第一行未使用用戶詞典,第二行使用了用戶詞典
我加入了的用戶詞:數據結構和數據元素