Java分佈式中文分詞組件word分詞v1.2發佈

word分詞是一個Java實現的分佈式的中文分詞組件,提供了多種基於詞典的分詞算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。同時提供了Lucene、Solr、ElasticSearch、Luke插件。

 

自1.0之後,在1.1和1.2中,word分詞有了重大改進,優化了分詞算法、利用多線程提升分詞速度、支持分佈式、支持資源變化自動檢測、新增了全切分算法、支持三元模型、支持Luke插件、增加gradle支持等等,同時,word1.2支持最新的ElasticSearch1.5.1、Lucene4.10.4、Solr4.10.4以及Luke4.0。

 

更多細節請查看:word分詞主頁

 

word分詞的分詞效果怎麼樣?請看:Java開源項目cws_evaluation:中文分詞器分詞效果評估

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章