ICTCLAS分詞系統研究(十)--後記

     FreeICTCLAS中文分詞系統從2006年3月就開始接觸,之後通過研讀相關論文和源代碼,寫了一系列的學習筆記,給很多同樣的中文分詞愛好者提供了一個可參考的文檔資料。但因爲工作及其它原因(嘿嘿,說白就了就是比較偷懶,沒有堅持下去),把該項目做成一個java版的原始想法一度中斷。之後,也曾多次嘗試重新拾起,完成我的一個心願,但複雜的工作都讓我半途而費。
       4月份的時候,一個愛好才MSN上問我相關問題,又激起了我的原始想法,同時看到呂震宇老師只用了半個月的時間就完成了C#版本的工作,並且寫了完成的系列文章,又大大刺激我的神經。想想我的系列文章只到半道,ictclas4j的程序也是半拉子工程,真是慚愧之極。於是下定決定,一定要把這個項目完成,給自己也給關心ictclas的朋友一個交待。
       經過三個星期的不懈努力,到現在爲止,基本上完整的實現了原FreeICTCLAS所實現的功能。原VC++實現的程序比我想象的更復雜,中間涉及大量的臨時性的數據結構和大量的全局變量,搞的我非常頭大,好幾次都有放棄的想法。不過謝天謝地,我這次終於堅持下來了。從java程序的角度從出,我對原來的數據結構做了大量調整和優化,去掉了很多不必要的中間變量。經過優化後,在整個分詞過後中只用到兩個對象:Atom、SegNode,原子和分詞結點,整個分詞過程就是對SegNode的不斷調整和改進,最終得到分詞結果。
     因爲到現在爲止,我只是做了一些簡單的測試,可能還有很多的BUG在裏面(對標點符號的處理就是一問題),並且分詞的速度還遠遠達不到我的要求,程序還有很多改進的地方,所以暫時源代碼還不會放上來,但我想最遲一個星期之內,我可以上傳到論壇供大家測試。同時,我已在Google Code上申請了ictclas4j的開源項目,期望有興趣的朋友加入進來共同改進。
     再次感謝張華平、劉羣老師,你們的傑作ICTCLAS分詞系統給國內的自然語言研究提供了一個很好的入門工具。也非常感謝呂震宇、DanceFire精闢入理的相關分析文章!
相關參考:

 ICTCLAS分詞系統論壇組:http://groups.google.com/group/ictclas

ICTCLAS for java研究,sinboy的BLOG:http://blog.csdn.net/sinboy/category/207165.aspx

ICTCLAS for C#研究,呂震宇的BLOG:http://www.cnblogs.com/zhenyulu/category/85598.html

DanceFire的專欄:http://blog.csdn.net/DanceFire/category/294373.aspx

ICTCLAS的老家:http://www.i3s.ac.cn/index.htm

ICTCLA4J開源項目:http://code.google.com/p/ictclas4j/

發佈了65 篇原創文章 · 獲贊 5 · 訪問量 53萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章