原创 集成Nutch和Solr

兩年前集成Nutch 和Solr 這兩個Apache Lucene 項目組下的子項目實在是件困難的事情,需要打很多補丁(patches),爲他們的聯姻搜尋各種必需的組件(required components)。今非昔比,時下,在Solr

原创 空腹時 再餓都不能喫的11種食物

一、牛奶、豆漿 這兩種食物中含有大量的蛋白質,空腹飲用,蛋白質將“被迫”轉化爲熱能消耗掉,起不到營養滋補作用。正確的飲用方法是與點心、麪餅等含麪粉的食品同食,或餐後兩小時再喝,或睡前喝均可。 二、酸奶 空腹飲用酸奶,會使酸奶的保健作用減

原创 虛擬 Linux

進行虛擬化 就是要將某種形式的東西以另外一種形式呈現出來。對計算機進行虛擬化就是要將計算機以多臺計算機或一臺完全不同的計算機的形式呈現出來。 虛擬化也可以將多臺計算機組合成一臺計算機的形式呈現出來。這通常稱爲服務器聚合或網格計算 。 下

原创 Hadoop分佈式文件系統:架構和設計要點

Hadoop分佈式文件系統:架構和設計要點 原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和設計目標 1、硬件錯誤是常態,而非異常情況, HD

原创 使用 Linux 和 Hadoop 進行分佈式計算

Hadoop 由 Apache Software Foundation 公司於 2005 年秋天作爲 Lucene 的子項目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發的 MapReduce 和 Google

原创 使用 Apache Lucene 搜索文本

簡介 Lucene 是一個開源、高度可擴展的搜索引擎庫,可以從 Apache Software Foundation 獲取。您可以將 Lucene 用於商業和開源應用程序。Lucene 強大的 API 主要關注文本索引和搜索。它可以用

原创 利用SOLR搭建企業搜索平臺

  在網絡上找了很多的關於solr的資料,發現非常的不全面,即使就是官方的wiki,也是如此!   基於現階段正在研究的solr應用,陸續的會分享我的一些經驗!   今天要說的是: 怎麼跑起來!   1》 首先下載好solr,我用的

原创 Linux 上的雲計算

最近,沒有哪家技術性網站不提到所謂的雲計算 的。雲計算其實就是以服務的形式提供計算資源(計算機和存儲)。這又涉及到以一種簡單、透明的方式動態地將服務延伸到更多的計算機和存儲的能力。所有這些都類似於效用計算(utility computin

原创 裝B裝小資的文學

許多朋友爲裝B裝的不好而痛苦。雖然有人推薦看格調,但只看了書,不精通,卻也無法裝的痛快淋漓。現在,我教大家一個簡單易學的辦法。   原則(1):能用英文絕不用漢語。說東西的時候一定要把一樣東西的牌子和產地都一起說出來,不論有多麼彆扭。

原创 分佈式計算開源框架Hadoop入門實踐

內容摘要:Hadoop 是Apache開源組織的一個分佈式計算開源框架,在很多大型網站上都已經得到了應用,如亞馬遜、Facebook和Yahoo等等。   在SIP項目設計的過程中,對於它龐大的日誌在開始時就考慮使用任務分解的多線程

原创 Nutch 實戰

基本信息 Nutch是一個開放源代碼(open-source)的Java搜索引擎包,它提供了構建一個搜索引擎所需要的全部工具和功能。使用Nutch不 僅可以建立自己內部網的搜索引擎,同時也可以針對整個網絡建立搜索引擎。除了基本的功能之

原创 橫穿馬路被電視臺抓住採訪時要沉着應答

一天,在回家的路上,被一羣拿着攝像機的傢伙攔住了,   其中一個什麼也沒有拿的靚女說他們是XX報社的,要採訪我。   採訪開始後,那靚女問 我:“剛纔你是不是從馬路中間的護欄上跳過來的?“我說是,沒錯。她問我知道那麼做不對嗎?知道不對爲什

原创 Nutch 插件系統淺析

Nutch 基本情況 Nutch 是 Apache 基金會的一個開源項目,它原本是開源文件索引框架 Lucene 項目的一個子項目,後來漸漸發展成長爲一個獨立的開源項目。它基於 Java 開發,基於 Lucene 框架,提供 Web

原创 使用 Apache Solr 實現更加靈巧的搜索,第 1 部分: 基本特性和 Solr 模式

一旦用戶需要某種信息,就可以立即搜索到這些信息,這種要求再也不是可有可無的了。隨着 Google 和類似的複雜搜索引擎的出現,用戶希望得到高質量的搜索結果,幫助他們快速、輕易地找到所需的信息。經理對您的在線購物站點同樣抱有很高的期望,要求

原创 開發基於 Nutch 的集羣式搜索引擎

簡介 Nutch 是一個基於 Java 實現的開源搜索引擎,其內部使用了高性能全文索引引擎工具 Lucene。從 nutch0.8.0開始,Nutch 完全構建在 Hadoop 分佈式計算平臺之上。Hadoop 除了是一個分佈式文件系