HanLP v1.3.5 更新內容:
大幅優化CRF分詞和二階HMM分詞,重構CharacterBasedGenerativeModelSegment
自定義詞典支持熱更新:#563 ,ngram模型支持熱加載:#580
新增一個提高用戶詞典優先級的開關:#633
支持98年人民日報的複合詞語料格式,如"[中央/n 人民/n 廣播/vn 電臺/n]nt"
開放TextRank關鍵詞提取中的最大迭代次數參數:#577
爲Term添加equal方法
TextRankKeyword 提取窗口相近詞的強化
文本摘要方法支持自定義句子分隔符
提高AC自動機健壯性,添加hasKeyword接口
修復BinTrie.remove不存在的key時導致的問題:#540
解決mini模型下同時打開所有命名實體識別和數詞識別時觸發的問題:#542
CharTable.txt 添加上下標字符的對應關係
將“t”等不可打印的字符視作分隔符:#584
中文數詞與阿拉伯數詞切分開
修正全角年份識別中字符串長度錯誤,修正數字識別工具的錯誤,增加測試代碼。支持讀取包含BOM的文本文件。
校對CoreNatureDictionary.txt,刪除以分號開頭的錯誤詞語:#221 (comment)
修復CoNLLWord中toString方法的bug
微調人名識別模型:#562 刪除人名識別模型中的高頻動詞D標籤,降低誤命中率,音譯人名識別取消外國地名觸發
修復Nature.fromString和IOUtil.loadDictionary:#626
修正“還款”的拼音:#565 修正簡繁一多對應校驗表/樑→樑樑(樑為樑的異體字,由簡體轉為繁體時僅需採用樑即可):#606
數據包依然兼容data-for-1.3.3.zip: 國內網盤 或 海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
獲取最新版的數據包,請fork一份並git clone https://github.com/YourName/HanLP.git。
Portable版同步升級到v1.3.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.5</version>
</dependency>
HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
在提供豐富功能的同時,HanLP內部模塊堅持低耦合、模型堅持惰性加載、服務堅持靜態提供、詞典堅持明文發佈,使用非常方便,同時自帶一些語料處理工具,幫助用戶訓練自己的模型。
文章來源於網絡