原创 google 真的被封?
昨天晚上開始,mail.google.com 無法打開。然後嘗試 google.com 的其它服務都不能正常訪問。只有 google.cn 正常。gfw 真強大。一句名言說得真不錯 “技術的力量永遠幹不過政
原创 中文分詞 mmseg4j-1.8 版發佈
想發佈新版的 mmseg4j 到現在已經有二個多月了。主要是因爲這段時間忙其它事情了。現 Lucene 2.9 發佈了,solr 1.4 也應該會比較快就要發佈了。對 mmseg4j 兼容新版的 lucene/solr 也是個任務。
原创 討論 mmseg4j 的現狀,與改進。
發佈最新一個 mmseg4 (1.7.2 與 1.6.2)版,距今也有幾個月了。max-word 方式還不完善,有很多需要改進的地方。由於沒有個好的想法,以至幾個月都沒更新。mmseg4j 項目也受到一些的關注,十分有必要改進。這貼說明下
原创 解壓 *.tar.gz 文件
linux下的很軟件都是 tar.gz後綴的,解壓久了不用就忙了,寫備忘。現我知的直接解壓方法有兩種 1.gunzip與tar gunzip < *.tar.gz | tar -xvf - 2.只用tartar -zxvf *.tar.
原创 Tomcat shtml ssi
想讓Tomcat支持ssi,一般是shtml文件。配置比較簡單。 默認tomcat不支持ssi。 現以tomcat5.5.x爲例。 改conf/web.xml配置。 有兩種方式:一是servlet,
原创 中文分詞 mmseg4j
使用 paoding 的配置覺得有點複雜,而且管理詞庫也有點不方便,同時自己也想了解下中文分詞算法,然後就想自己寫個中文分詞器,在lucene和solr中使用。在 javaeye 看到有關 mmseg 的簡
原创 solr 分佈式(複製)配置
solr 分佈式其實是分發,這概念像Mysql的複製。所有的索引的改變都在主服務器裏,所有的查詢都在從服務裏。從服務器不斷地(定時)從主服務器拉內容,以保持數據一致。先描述下我的環境:solr-master(192.168.1.1
原创 mmseg4j 多分詞模式與 paoding 分詞效果對比
mmseg4j 1.6支持最多分詞,應網友的要求:分詞效果與 paoding 對比下。觀察了 paoding 部分分詞結果,現總結下。paoding 分詞效果:-----------------------
原创 使用 mysql 免安裝版
我比較喜歡免安裝版(非安裝版)的mysql, 下載如: mysql-noinstall-5.0.45-win32.zip 把它解壓到如: E:/mysql-5.0.45, 當然可以任意位置。 然後改my-m
原创 xml 轉義符
html 與 xml的轉義符不同, xml就只有5個:< < > > & & " " ' ' xml沒有
原创 mmseg4j 1.7 beta 版發佈
mmseg4j 1.7 beta 版,主要改進分詞速度。最大的變動是詞庫的數據結構改變了,改爲key tree(鍵樹)。有幾點的性能改進:[list][*]要比較的詞不從 char[] sen(代分詞的句子
原创 Hadoop 快速入門
Required Software JavaTM 1.5.x ssh與sshd 如果沒有安裝請自行安裝。我以CentOS 4.6爲例。 下載hadoop,http://apache.mirror.phpchina.com/h
原创 mmseg4j 分詞速度
看一下 mmseg4j 的分詞速度如何,下載了兩篇長篇小說共2.5M左右,可以到 [url]http://mmseg4j.googlecode.com/files/txt.zip[/url]。2.5M的數據
原创 solr 的 Distributed Searching 試用
一直想了解分佈搜索與索引。Lucene有MultiSearcher,solr1.2的只能有單個索引,現在1.3可以有Distributed Searching這玩意。可以從多個索引裏搜索出併合並結果返回給你
原创 svn服務器遷移, 舊的項目url怎麼辦?
由於svn服務器的調整,很多項目裏的鏈接還是舊的服務器,又由於項目裏有些東西還沒有提交,所不能刪除svn的元數據,怎樣才能適應svn的遷移呢? 我的項目全在Eclipse下面,用subeclipse客戶端,在subeclip