word分詞是一個Java實現的分佈式的中文分詞組件,提供了多種基於詞典的分詞算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。同時提供了Lucene、Solr、ElasticSearch、Luke插件。
自1.0之後,在1.1和1.2中,word分詞有了重大改進,優化了分詞算法、利用多線程提升分詞速度、支持分佈式、支持資源變化自動檢測、新增了全切分算法、支持三元模型、支持Luke插件、增加gradle支持等等,同時,word1.2支持最新的ElasticSearch1.5.1、Lucene4.10.4、Solr4.10.4以及Luke4.0。
更多細節請查看:word分詞主頁
word分詞的分詞效果怎麼樣?請看:Java開源項目cws_evaluation:中文分詞器分詞效果評估