使用Hanlp加載大字典

原創

2018-11-16 15:20

　問題
因爲需要加載一個近 1G 的字典到Hanlp中，一開始使用了CustomDictionay.add() 方法來一條條的加載，果然到了中間，維護DoubleArraTre 的成本太高，添加一個節點，都會很長時間，本來時間長一點沒有關係，只要訓練出.bin 的文件，第二次加載就會很快，然而作爲以空間換時間的DAT結構，內存消耗很大，預料之內的出現了

out of memory: heap size

的問題。　後來嘗試直接加載了1G 的字典，顯然更不行。

思路
閱讀了Hanlp的　部分源碼，也請教了原作者一部分問題，　就打算從源碼入手。初步想法大概是將原始字典
split 成多份，然後分別將多份的小字典訓練成多個小的.bin 文件，再完整的加載到內存中，基於的原則則是：加載兩個10M的字典的消耗比一個20M的要小。
然後又優化了一部分，現在加載一個大概1G的字典，佔內存約3g+ ，已經可以使用了。

大概流程
修改　CustomDictionary.java　設置一個 hashmap　或者一個 list 來存儲所有的小Dat
將所有的dat加載完，這裏就不再區分主副字典了。
修改Segment.java裏面的combineByCustomDictionary 函數，源碼中只有一個dat，這裏我們需要選擇我們容器中其中某一個dat作爲要匹配使用，之前使用的方案是，遍歷所有的dat，知道有了匹配，但是這樣缺陷很明顯，解決不了多個字典匹配同一個詞的字串的情況，這裏我的考察方案是，字典中的同一個字開始的詞條映射到同一個文件，這樣不會出現字串問題了。
上面是個大概的修改，可以參考。

文章來源於ShomyLiu的博客

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用Hanlp加載大字典

HanLPTokenizer HanLP分詞器

pyhanlp用戶自定義詞典添加

使用Hanlp加載大字典

漢語言處理包 HanLP v1.3.5，新功能、優化與維護

ubuntu下使用pycharm調用Hanlp自然語言處理包

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結