原创 google 真的被封?

昨天晚上開始,mail.google.com 無法打開。然後嘗試 google.com 的其它服務都不能正常訪問。只有 google.cn 正常。gfw 真強大。一句名言說得真不錯 “技術的力量永遠幹不過政

原创 中文分詞 mmseg4j-1.8 版發佈

想發佈新版的 mmseg4j 到現在已經有二個多月了。主要是因爲這段時間忙其它事情了。現 Lucene 2.9 發佈了,solr 1.4 也應該會比較快就要發佈了。對 mmseg4j 兼容新版的 lucene/solr 也是個任務。  

原创 討論 mmseg4j 的現狀,與改進。

發佈最新一個 mmseg4 (1.7.2 與 1.6.2)版,距今也有幾個月了。max-word 方式還不完善,有很多需要改進的地方。由於沒有個好的想法,以至幾個月都沒更新。mmseg4j 項目也受到一些的關注,十分有必要改進。這貼說明下

原创 解壓 *.tar.gz 文件

linux下的很軟件都是 tar.gz後綴的,解壓久了不用就忙了,寫備忘。現我知的直接解壓方法有兩種 1.gunzip與tar gunzip < *.tar.gz | tar -xvf - 2.只用tartar -zxvf *.tar.

原创 Tomcat shtml ssi

    想讓Tomcat支持ssi,一般是shtml文件。配置比較簡單。 默認tomcat不支持ssi。 現以tomcat5.5.x爲例。 改conf/web.xml配置。 有兩種方式:一是servlet,

原创 中文分詞 mmseg4j

使用 paoding 的配置覺得有點複雜,而且管理詞庫也有點不方便,同時自己也想了解下中文分詞算法,然後就想自己寫個中文分詞器,在lucene和solr中使用。在 javaeye 看到有關 mmseg 的簡

原创 solr 分佈式(複製)配置

    solr 分佈式其實是分發,這概念像Mysql的複製。所有的索引的改變都在主服務器裏,所有的查詢都在從服務裏。從服務器不斷地(定時)從主服務器拉內容,以保持數據一致。先描述下我的環境:solr-master(192.168.1.1

原创 mmseg4j 多分詞模式與 paoding 分詞效果對比

mmseg4j 1.6支持最多分詞,應網友的要求:分詞效果與 paoding 對比下。觀察了 paoding 部分分詞結果,現總結下。paoding 分詞效果:-----------------------

原创 使用 mysql 免安裝版

我比較喜歡免安裝版(非安裝版)的mysql, 下載如: mysql-noinstall-5.0.45-win32.zip 把它解壓到如: E:/mysql-5.0.45, 當然可以任意位置。 然後改my-m

原创 xml 轉義符

html 與 xml的轉義符不同, xml就只有5個:< &lt; > &gt; & &amp; " &quot; ' &apos; xml沒有&nbsp;

原创 mmseg4j 1.7 beta 版發佈

mmseg4j 1.7 beta 版,主要改進分詞速度。最大的變動是詞庫的數據結構改變了,改爲key tree(鍵樹)。有幾點的性能改進:[list][*]要比較的詞不從 char[] sen(代分詞的句子

原创 Hadoop 快速入門

  Required Software JavaTM 1.5.x ssh與sshd 如果沒有安裝請自行安裝。我以CentOS 4.6爲例。 下載hadoop,http://apache.mirror.phpchina.com/h

原创 mmseg4j 分詞速度

看一下 mmseg4j 的分詞速度如何,下載了兩篇長篇小說共2.5M左右,可以到 [url]http://mmseg4j.googlecode.com/files/txt.zip[/url]。2.5M的數據

原创 solr 的 Distributed Searching 試用

一直想了解分佈搜索與索引。Lucene有MultiSearcher,solr1.2的只能有單個索引,現在1.3可以有Distributed Searching這玩意。可以從多個索引裏搜索出併合並結果返回給你

原创 svn服務器遷移, 舊的項目url怎麼辦?

    由於svn服務器的調整,很多項目裏的鏈接還是舊的服務器,又由於項目裏有些東西還沒有提交,所不能刪除svn的元數據,怎樣才能適應svn的遷移呢?    我的項目全在Eclipse下面,用subeclipse客戶端,在subeclip