台部落clbchenlb

昨天晚上開始，mail.google.com 無法打開。然後嘗試 google.com 的其它服務都不能正常訪問。只有 google.cn 正常。gfw 真強大。一句名言說得真不錯 “技術的力量永遠幹不過政

2018-11-04 03:10:51

想發佈新版的 mmseg4j 到現在已經有二個多月了。主要是因爲這段時間忙其它事情了。現 Lucene 2.9 發佈了，solr 1.4 也應該會比較快就要發佈了。對 mmseg4j 兼容新版的 lucene/solr 也是個任務。

2018-11-04 03:10:51

發佈最新一個 mmseg4 （1.7.2 與 1.6.2）版，距今也有幾個月了。max-word 方式還不完善，有很多需要改進的地方。由於沒有個好的想法，以至幾個月都沒更新。mmseg4j 項目也受到一些的關注，十分有必要改進。這貼說明下

2018-11-04 03:10:51

linux下的很軟件都是 tar.gz後綴的，解壓久了不用就忙了，寫備忘。現我知的直接解壓方法有兩種 1.gunzip與tar gunzip < *.tar.gz | tar -xvf - 2.只用tartar -zxvf *.tar.

2018-10-27 02:55:24

想讓Tomcat支持ssi，一般是shtml文件。配置比較簡單。默認tomcat不支持ssi。現以tomcat5.5.x爲例。改conf/web.xml配置。有兩種方式：一是servlet，

2018-10-27 02:55:24

使用 paoding 的配置覺得有點複雜，而且管理詞庫也有點不方便，同時自己也想了解下中文分詞算法，然後就想自己寫個中文分詞器，在lucene和solr中使用。在 javaeye 看到有關 mmseg 的簡

2018-10-27 02:55:24

solr 分佈式其實是分發，這概念像Mysql的複製。所有的索引的改變都在主服務器裏，所有的查詢都在從服務裏。從服務器不斷地(定時)從主服務器拉內容，以保持數據一致。先描述下我的環境：solr-master(192.168.1.1

2018-10-27 02:55:24

mmseg4j 1.6支持最多分詞，應網友的要求：分詞效果與 paoding 對比下。觀察了 paoding 部分分詞結果，現總結下。paoding 分詞效果：-----------------------

2018-10-27 02:55:24

我比較喜歡免安裝版(非安裝版)的mysql，下載如： mysql-noinstall-5.0.45-win32.zip 把它解壓到如： E:/mysql-5.0.45，當然可以任意位置。然後改my-m

2018-10-27 02:55:24

html 與 xml的轉義符不同, xml就只有5個:< < > > & & " " ' ' xml沒有 

2018-10-27 02:55:24

mmseg4j 1.7 beta 版，主要改進分詞速度。最大的變動是詞庫的數據結構改變了，改爲key tree(鍵樹)。有幾點的性能改進：[list][*]要比較的詞不從 char[] sen（代分詞的句子

2018-10-27 02:55:24

Required Software JavaTM 1.5.x ssh與sshd 如果沒有安裝請自行安裝。我以CentOS 4.6爲例。下載hadoop，http://apache.mirror.phpchina.com/h

2018-10-27 02:55:24

看一下 mmseg4j 的分詞速度如何，下載了兩篇長篇小說共2.5M左右，可以到 [url]http://mmseg4j.googlecode.com/files/txt.zip[/url]。2.5M的數據

2018-10-27 02:55:24

一直想了解分佈搜索與索引。Lucene有MultiSearcher，solr1.2的只能有單個索引，現在1.3可以有Distributed Searching這玩意。可以從多個索引裏搜索出併合並結果返回給你

2018-10-27 02:55:24

由於svn服務器的調整，很多項目裏的鏈接還是舊的服務器，又由於項目裏有些東西還沒有提交，所不能刪除svn的元數據，怎樣才能適應svn的遷移呢？我的項目全在Eclipse下面，用subeclipse客戶端，在subeclip

2018-10-27 02:55:24