中文分詞免費源碼資源

1。http://www.chinesecomputing.com/nlp/segment.html

此鏈接介紹了很多分詞資源。注意看其第二項(A Simplified Chinese Segmenter written in Perl )。裏面有Perl和Java版的簡體中文分詞程序,完全free。我試了一下,效果不錯。網上很多人向Lucene中添加中文分詞時用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++開發,所以用JNI給包裝起來之後,當分詞時就問題百出,非常不穩定。當時我做實驗室的一個小DD用的也是這個接口,是北師大陳天封裝,分詞會經常出問題,當然責任不在陳天。我也專門就如何在Lucene中添加中文分詞程序寫過一篇文章,介紹如何在Lucene中使用ICTCLAS添加中文分詞。後來有很多讀者給我發Email探討這個問題,爲什麼他們的就有問題。其實我用時也有時會有問題。這裏你可以使用我所推薦替代那個免費的而且不好用的用JNI封裝的令人抓狂的ICTCLAS。

但是本人沒有對多線程進行測試,只是順便用了一下。哪位達人試過確實好用,一定不要忘了告訴我。

2。http://www.fajava.cn/products_01.asp

推薦您採用第三代智能分詞系統3GWS(the 3rd Generation Word Segmenter)。據說是ICTCLAS3.0的商用版本。參見:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以試用。這是Blog上別人留的言,我沒有試過。

3  中文分詞免費版 (Nice thing)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章