scws簡易中文分詞系統

一、簡介

SCWS 是 Simple Chinese Words Segmentation 的縮寫,即簡易中文分詞系統。

這是一套基於詞頻詞典的機械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。詞是漢語的基本語素單位,而書寫的時候不像英語會在詞之間用空格分開,所以如何準確而又快速的分詞一直是中文分詞的攻關難點。

SCWS 在概念上並無創新成分,採用的是自行採集的詞頻詞典,並輔以一定程度上的專有名稱、人名、地名、數字年代等規則集,經小範圍測試大概準確率在 90% ~ 95% 之間,已能基本滿足一些中小型搜索引擎、關鍵字提取等場合運用。 SCWS 採用純 C 代碼開發,以 Unix-Like OS 爲主要平臺環境,提供共享函數庫,方便植入各種現有軟件系統。此外它支持 GBK,UTF-8,BIG5 等漢字編碼,切詞效率高。

 

二、使用方法

1、當然首先得去下載相應的scws版本,http://www.ftphp.com/scws/

2、筆者開發環境是windows xp,php5,下載的scws版本是php_scws.dll(2)

3、下載XDB詞典文件、規則集文件

4、筆者將下載的文件存放在C:/Program Files/scws,

5、把 php_scws.dll 複製到php 擴展文件夾

 

6、修改php.ini ,加入如下內容:
[scws]
extension=php_scws.dll
scws.default.charset = utf8
scws.default.fpath = "c:/program files/scws"

 

 

7、應用


發佈了64 篇原創文章 · 獲贊 2 · 訪問量 30萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章