SCWS入門使用指南

關於scws的詳細介紹,去官方網站看作者lightman的說明。http://www.xunsearch.com/scws/

這裏一句話總結下,scws是一套用來提取文本中指定關鍵詞的軟件。文本有大有小,指定關鍵字則由詞庫文件來決定。關鍵字提取出來,大有可用。

1可以放入網頁中的<meta name="keywords" content=""/> ,增加網頁的權重

2搜索詞推薦、關鍵字廣告

3結合搜索推薦相關內容

4歡迎補充……


A 安裝

1 獲取最新版以及安裝

cd /usr/local/src

wget http://www.xunsearch.com/scws/down/scws-1.2.2.tar.bz2

tar xvjf scws-1.2.2.tar.bz2

cd scws-1.2.2

./configure -prefix=/usr/local/scws

make

make install


2 確認安裝成功

確認文件是否存在

ls -al /usr/local/scws/lib/libscws.la

執行scws-cli文件

/usr/local/scws/bin/scws -h

scws (scws-cli/1.2.2)Simple Chinese Word Segmentation - Command line usage.Copyright (C)2007 by hightman.

文件存在,介紹信息正確,表明安裝成功


3 下載詞典文件備用

cd /usr/local/scws/etc

wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2

wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

tar xvjf scws-dict-chs-gbk.tar.bz2

tar xvjf scws-dict-chs-utf8.tar.bz2


B 結合php使用
要想在php中使用scws分詞工具,必須安裝php擴展,並且必須要求php與scws安裝在同一臺機器。
cd /usr/local/src/scws-1.2.2/phpext
/usr/local/php-5.3.8/bin/phpize       .
/configure --with-scws=/usr/local/scws --with-php-config=/usr/local/php-5.3.8/bin/php-config
make
make install
在php.ini加入以下配置

extension = scws.so

scws.default.charset = gbk

scws.default.fpath = /usr/local/scws/etc

重啓php,看看phpinfo中scws擴展是否安裝成功。

php簡單使用scws代碼

<?php
$words = array();
$so = scws_new();
$so->set_charset('utf8');
$so->set_dict("/usr/local/scws/etc/dict.xdb");
$so->send_text($text);
while ($tmp = $so->get_result()){
   foreach ($tmp as $val){
      if (strlen($val['word']) > 3)
         $words[] = $val['word'];
   }
}
$so->close();
print_r(array_count_values($words));   
php?>

C XDB導入導出工具

scws作者提供了php版本的詞庫導入導出工具。
cd /usr/local/src
wget http://www.xunsearch.com/scws/down/phptool_for_scws_xdb.zip
unzip phptool_for_scws_xdb.zip
mkdir /usr/local/scws/php/
mv make_xdb_file.php dump_xdb_file.php readme.txt xdb.class.php /usr/local/scws/php/
cd /usr/local/scws/php/
導出詞典。readme.txt文件有詳細的使用說明。
/usr/local/php-5.3.8/bin/php ./dump_xdb_file.php /usr/local/scws/etc/dict.utf8.xdb /usr/local/scws/etc/dict.utf8.txt

D 使用http-scws
上面php的使用方式有一個小缺點,就是php要和scws在同一臺機器上。意味着每臺機器都要安裝scws和php擴展。使用http-scw可以避免這樣的問題,但是也要謹慎使用,因爲涉及到網絡傳輸。
http-scws其實就是在scws的基礎上做了一層http封裝,以服務的方式在服務器上開啓端口,監聽請求。完整介紹見http://code.google.com/p/http-scws/。
cd /usr/local/src
wget http://http-scws.googlecode.com/files/http-scws_2.1.zip
unzip http-scws_2.1.zip
mv http-scws_2.1 /usr/local/http-scws
cd /usr/local/http-scws
修改http-scws.h文件,將第31行的#include <scws/scws.h>  改成 #include </usr/local/scws/include/scws/scws.h>
執行編譯命令 gcc -o http-scws cJSON.c http-scws.c -L/usr/local/scws/lib -lscws -levent -lm -Wl,--rpath
會在當前文件夾下生成一個有執行權限的http-scws文件
./http-scws -h 查看幫助
開啓服務
/usr/local/http-scws/http-scws -f /usr/local/scws/etc/dict.utf8.txt -r /usr/local/scws/etc/rules.utf8.ini -d
netstat -ntpl | grep 2011 我們可以看到默認的端口2011已經開啓監聽
打開瀏覽器 http://你的ip:2011/?text=得了感冒怎麼辦

{"status":{"no":"0","msg":"OK"},

"result":{"0":"得了","1":"感冒","2":"怎麼辦"},

"time":{"time":"0.0002","unit":"sec"}}



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章