原创 投資與合作:網頁遊戲醞釀沸騰前奏

    記者 劉揚   盛大網絡、百度、金山軟件、新浪等網絡大腕紛紛宣佈進軍網頁遊戲,更有業內人士表示2008年網頁遊戲的用戶規模將同比增長400%,

原创 如何測試搜索引擎的索引量大小

背景知識:搜索引擎的質量指標一般包括相關性(Relevance)、時效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四個方面,今天我們要談的索引量就屬於完整性指標的範疇。 首先需要

原创 俞士汶教授談中文語言處理(一)

者按:我們多次前往北大計算語言學研究所和俞士汶教授進行了分詞方面的技術交流,俞教授的談話讓我們受益匪淺。我們特意對俞教授進行了訪談,希望讀到此文的搜索愛好者,也能和我們一起分享分詞知識、探討搜索未來。   訪談正文如下:  1、與英語等歐

原创 俞士汶教授談中文語言處理(二)

 俞士汶教授談中文語言處理(二)     3、中文分詞技術當前面臨的主要挑戰是什麼?互聯網的發展和計算能力的提升對其發展有何幫助? 與理論探討、算法設計、演示系統開發不同,互聯網搜索引擎技術要求詞語切分技術具有實戰能力。在互聯網上應用時,

原创 Nutch搜索引擎之分佈式文件系統

  1.介紹   NDFS:在一系列機器上存儲龐大的面向流的文件,包含多機的存儲冗餘和負載均衡。   文件以塊爲單位存儲在NDFS的離散機器上,提供一

原创 用lucene爲數據庫搜索建立增量索引

用lucene爲數據庫搜索建立增量索引 用 lucene 建立索引不可能每次都重新開始建立,而是按照新增加的記錄,一次次的遞增 建立索引的IndexWriter類,有三個參數     IndexWriter writer = new I

原创 六度理論校內網API平臺贏利模式分析

     六度理論告訴我們,只要通過六個人就可以認識任何一個陌生人,開放API後的校內網讓分享的廣度和維度更大。根據六度理論產生了SNS,以校內網爲例

原创 spidesample 機器人例子(Java)

一個簡單的機器人例子(Java) import java.awt.*; import java.net.*; import java.io.*; import java.lang.*; import java.util.

原创 中文搜索引擎技術揭密:網絡蜘蛛

隨着搜索經濟的崛起,人 們開始越加關注全球各大搜索引擎的性能、技術和日流量。作爲企業,會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作爲普通

原创 微軟:將以超過1億美元收購語義搜索引擎Powerset

日前有消息稱,微軟已經同意收購語義搜索引擎Powerset,收購價格將略高於1億美元.微軟將於下月發佈正式聲明.Powerset公司位於舊金山,其搜索引擎技術能夠理解用戶輸入的短語的真實含義,並在這種理解的基礎上返回搜索結果. 通過收購

原创 雲計算(cloud computing)10問

          雲計算這個新名詞最近甚囂塵上,最近周圍不少朋友都在談,有必要寫一個關於雲計算的科普了。  一般的業界比較喜歡用一些新名詞來體現自己的戰略眼光和與對手的區隔。當幾個月前google提出雲計算的概念的時候,amazon說自

原创 Nutch中metadata的分析

  作爲Nutch中的一個非常重要的數據結構,metadata是一個內容豐富的容器,這裏面存儲了很多值,同時metadata也是一個信息集合的約束,如果要使用metadata,那它裏面的所有聲明的靜態字符串字段,都是約定的一些固定字段,

原创 做“全民公敵”是發展趨勢 正在嘗試搜索業務

       這是一隻危險的小企鵝,它是對手眼中的強敵,因此它也時刻處在危險之中。無論在投資者眼中,還是競爭對手的視野裏,騰訊都是比較強悍的對手,因爲

原创 lucene的索引源碼分析

 lucene的索引源碼分析           lucene對一系列的文件進行索引時,首先會將物理文件映射爲Document類型的文件。Document中包含有和檢索相關的field,這個過程將一些感興趣的內容提取出來,而之後所有的檢索

原创 放棄搜索引擎無效的收錄,專注熱門關鍵字

       放棄搜索引擎無效的收錄,專注熱門關鍵字 首先說一下大站的SEO,通常人們對大站的SEO中,有二點是要作的: 第一點就是關鍵字(常用關鍵字