漢語言處理包 HanLP v1.3.5,新功能、優化與維護

HanLP v1.3.5 更新內容:

大幅優化CRF分詞和二階HMM分詞,重構CharacterBasedGenerativeModelSegment

自定義詞典支持熱更新:#563 ,ngram模型支持熱加載:#580

新增一個提高用戶詞典優先級的開關:#633

支持98年人民日報的複合詞語料格式,如"[中央/n 人民/n 廣播/vn 電臺/n]nt"

開放TextRank關鍵詞提取中的最大迭代次數參數:#577

爲Term添加equal方法

TextRankKeyword 提取窗口相近詞的強化

文本摘要方法支持自定義句子分隔符

提高AC自動機健壯性,添加hasKeyword接口

修復BinTrie.remove不存在的key時導致的問題:#540

解決mini模型下同時打開所有命名實體識別和數詞識別時觸發的問題:#542

CharTable.txt 添加上下標字符的對應關係

將“t”等不可打印的字符視作分隔符:#584

中文數詞與阿拉伯數詞切分開

修正全角年份識別中字符串長度錯誤,修正數字識別工具的錯誤,增加測試代碼。支持讀取包含BOM的文本文件。

校對CoreNatureDictionary.txt,刪除以分號開頭的錯誤詞語:#221 (comment)

修復CoNLLWord中toString方法的bug

微調人名識別模型:#562 刪除人名識別模型中的高頻動詞D標籤,降低誤命中率,音譯人名識別取消外國地名觸發

修復Nature.fromString和IOUtil.loadDictionary:#626

修正“還款”的拼音:#565 修正簡繁一多對應校驗表/樑→樑樑(樑為樑的異體字,由簡體轉為繁體時僅需採用樑即可):#606

數據包依然兼容data-for-1.3.3.zip: 國內網盤 或 海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
獲取最新版的數據包,請fork一份並git clone https://github.com/YourName/HanLP.git

Portable版同步升級到v1.3.5

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.3.5</version>
    </dependency>

HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

在提供豐富功能的同時,HanLP內部模塊堅持低耦合、模型堅持惰性加載、服務堅持靜態提供、詞典堅持明文發佈,使用非常方便,同時自帶一些語料處理工具,幫助用戶訓練自己的模型。

文章來源於網絡

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章