搜索引擎技術資源篇-2(轉載)

搜索引擎的策略都是採用服務器羣集和分佈式計算技術。(搜索引擎技術資源篇-1)

經典文章:  google早期論文 The Anatomy of a Large-Scale Hypertextual Web Search Engine

<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "顯示"; var tocHideText = "隱藏"; showTocToggle(); } </script>

搜索原理

主要做三個步驟:從互聯網上抓取網頁 → 建立索引數據庫 → 在索引數據庫中搜索排序。

從互聯網上抓取網頁——利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,並沿着任何網頁中的所有URL爬到其它網頁,重複這過程,並把爬過的所有網頁收集回來。建立索引數據庫——由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關係等),根據一定的相關度算法進行大量複雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引數據庫。在索引數據庫中搜索排序——當用戶輸入關鍵詞搜索後,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因爲所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。最後,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。

搜索市場

據業內分析,今後以百度、Google和雅虎爲主的水平搜索的增長將趨緩,而垂直搜索(手機移動搜索)、論壇搜索、本地搜索等未來新興搜索引擎市場將以30%左右的速度增長,到2010年規模將達到78億元。

也就是說,水平搜索風光不再,而垂直搜索則方興未艾,垂直搜索是搜索市場新的“藍海”。據市場研究機構Kelsey Group預測,在未來5年內,僅美國國內地區搜索市場規模將達34億美元。

搜索歷史

搜索引擎

List of search engines

開源項目

C,C++

Java

PHP

Perl

中文資源

相關文章

相關鏈接

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章