原创 Spring基於JMS實現遠程訪問

使用JMS作爲底層通信協議,Spring提供了很好的支持。我們可以基於JMS將服務暴露給外部,這一切對於外部完全透明。這裏我們基於開源消息中間件ActiveMQ作爲中間代理,通過在服務端將服務以消息的形式發佈到代理服務器上,然後客戶端通過

原创 Lucene增強功能:Payload的應用

有關Lucene的Payload的相關內容,可以參考如下鏈接,介紹的非常詳細,值得參考: http://www.ibm.com/developerworks/cn/opensource/os-cn-lucene-pl/http://www

原创 Spring與RMI集成實現遠程訪問

使用Spring對RMI的支持,可以非常容易地構建你的分佈式應用。在服務端,可以通過Spring的org.springframework.remoting.rmi.RmiServiceExporter可以暴露你的服務;在客戶端,通過org

原创 理解Lucene得分計算公式

  Lucene通過計算文檔的得分來確定查詢結果文檔的相似度。如果你希望通過干預Lucene查詢來改變查詢結果的排序,你就需要對Lucene的得分計

原创 Windows下安裝libxml2並在Python中使用XPath

爲了使用XPath技術,對爬蟲抓取的網頁數據進行抽取(如標題、正文等等),花了一天的時間熟悉了一下Python語言,今天嘗試在Windows下安裝libxml2模塊,將自己的一點學習實踐簡單記錄一下。 Python在安裝一個擴展的模塊時,

原创 HBase-0.90.4集羣安裝配置

HBase是Hadoop數據庫,能夠實現隨機、實時讀寫你的Big Data,它是Google的Bigtable的開源實現,可以參考Bigtable的論文Bigtable: A Distributed Storage System for

原创 Hadoop-0.22.0分佈式集羣配置

Hadoop集羣的安裝和配置,主要分爲兩個部分:一部分是主機環境配置,主要是指Hadoop集羣所依賴的操作系統及其相關軟件的安裝配置,包括操作系統安裝、JDK安裝配置、主機規劃與IP地址映射配置、無密碼認證會話配置;另一部分是Hadoop

原创 Nginx+Memcached+Tomcat集羣配置實踐(Sticky Session)

準備工作 創建一個簡單的web應用,名爲session。其中有兩個頁面,分別如下所示: 頁面login.jsp<%@ page language="java" contentType="text/html; charset=UTF-8"

原创 對SolrCloud集羣Collection進行手動二次Sharding

我們已經基於SolrCloud 4.3.1+Tomcat 7搭建了搜索服務器集羣,一個Collection對應3個節點上的3個分片(Shard),同時包含對應分片的副本(Replica),此時,該Collection一共有6000萬左右D

原创 Solr集羣Replication配置與實踐

Solr作爲一個搜索服務器,在併發搜索請求的場景下,可能一臺服務器很容易就垮掉,這是我們可以通過使用集羣技術,設置多臺Solr搜索服務器同時對外提供搜索服務,在前端使用類似Nginx的負載均衡軟件,可以通過配置使得併發到達的搜索請求均勻地

原创 SolrCloud 4.3.1+Tomcat 7安裝配置實踐

我們使用Solr Replication可以實現Solr服務器的可用性,即使某一個索引副本由於磁盤介質故障或者誤操作刪除等,其他的多個複製副本仍然可以提供服務。如果只是單純的基於Solr Replication技術,只能對一個索引進行管理

原创 Linux下memcached-1.4.10安裝

memcache是一款流行的緩存產品,它分爲兩個部分:一個是運行在服務器端的memcached進程,一個是在客戶端進行調用獲取緩存中數據客戶端,例如比較常用的PHP客戶端。這裏,記錄一下安裝服務器端的memcached的過程,比較容易。

原创 使用iBatis作爲持久層實現快速開發

可能大家對iBatis的開發使用已經能夠耳熟能詳了,但是我們這裏並非是對一個新的持久層方案做推廣式的介紹,我想說的是,使用任何一個持久層解決方案,都應該能很好地將屏蔽物理數據庫的複雜性,iBatis也一樣。然而,對於開發人員來說,甚至是經

原创 基於語義連貫性實現主題挖掘和分類

約定一下文中使用的一些詞的含義: 文章:一般來說,一篇文章具有一個標題、一個或多個段落組成,其他的我們暫時不考慮。段落:一篇文章可以根據縮進(有些可能不存在縮進)或回車換行,將文章分成多個段,而每段是由數個句子組成。片段:片段是由一個或

原创 網頁電話/手機號碼識別

識別網頁上的電話號碼,一個比較容易想到的方法就是,通過預先設計電話號碼的正則表達式,對網頁文本內容中電話號碼進行匹配,抽取出對應的聯繫方式。然而,這種方法是假定電話號碼都是按照比較理想的格式在網頁上展示的,自然對於這樣的識別精度會很高,但