搜索引擎的策略都是採用服務器羣集和分佈式計算技術。(搜索引擎技術資源篇-1)
經典文章: google早期論文 The Anatomy of a Large-Scale Hypertextual Web Search Engine
<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "顯示"; var tocHideText = "隱藏"; showTocToggle(); } </script>搜索原理
主要做三個步驟:從互聯網上抓取網頁 → 建立索引數據庫 → 在索引數據庫中搜索排序。
從互聯網上抓取網頁——利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,並沿着任何網頁中的所有URL爬到其它網頁,重複這過程,並把爬過的所有網頁收集回來。建立索引數據庫——由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關係等),根據一定的相關度算法進行大量複雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引數據庫。在索引數據庫中搜索排序——當用戶輸入關鍵詞搜索後,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因爲所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。最後,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
搜索市場
據業內分析,今後以百度、Google和雅虎爲主的水平搜索的增長將趨緩,而垂直搜索(手機移動搜索)、論壇搜索、本地搜索等未來新興搜索引擎市場將以30%左右的速度增長,到2010年規模將達到78億元。
也就是說,水平搜索風光不再,而垂直搜索則方興未艾,垂直搜索是搜索市場新的“藍海”。據市場研究機構Kelsey Group預測,在未來5年內,僅美國國內地區搜索市場規模將達34億美元。
搜索歷史
搜索引擎
List of search engines
- Google - http://www.google.com
- Yahoo - http://search.yahoo.com
- http://www.chacha.com/
- http://www.clusty.com
- http://www.search.com
- Autonomy - http://www.autonomy.com.cn
- WiseNut - http://www.wisenut.com/
- MSN Search - http://search.msn.com
- A9 - http://www.a9.com
- Baidu - http://www.baidu.com
- Sogou
- Koders - Source Code Search Engine http://www.koders.com/
- Ask Jeeves - http://www.ask.com/
- Teoma - http://www.teoma.com/
- WiseNut - http://www.wisenut.com/
- Gigablast - http://www.gigablast.com/
- Creative Commons Search - http://search.creativecommons.org/
- Scrub The Web - http://www.scrubtheweb.com/
- FactBites.com - http://www.factbites.com
- Dumbfind - http://www.dumbfind.com/
- Entireweb - http://www.entireweb.com/
- Objects Search - http://www.objectssearch.com/
- Pipeline - http://www.pipeline-search.com/
- Mojeek - http://www.mojeek.com/
- Ulysseek - http://www.ulysseek.com/
- SearchHippo - http://www.searchhippo.com/
- Wotbox - http://www.wotbox.com/
- meta 搜索引擎 Myriad Search - http://www.myriadsearch.com/
- Majestic-12: Distributed Search Engine - 一個搜索引擎的協作項目
開源項目
C,C++
- Apache Lucene4c
- CLucene is a C++ port of Lucene - http://clucene.sourceforge.net
- SWISH++ - http://swishplusplus.sourceforge.net/
- ht://Dig
- Larbin
- mnoGoSearch - http://mnogosearch.org/
- SF超高速FTP搜索引擎
- ASPSeek - http://www.aspseek.org/
- OpenFTS - http://openfts.sourceforge.net/
- Swish-e - http://www.swish-e.org/
- OpenWebSpider - http://www.openwebspider.org/
- DataparkSearch - http://www.dataparksearch.org/
- Managing Gigabytes - http://www.cs.mu.oz.au/mg/
- Namazu(a Full-Text Search Engine) - http://www.namazu.org/index.html.en (include perl)
- Zebra - http://indexdata.dk/zebra/
- Webglimpse - http://webglimpse.net/
- Xapian - http://www.xapian.org/
- Webbot
Java
- Apache Lucene Search Engine (no crawler) - http://lucene.apache.org
- Apache Nutch (open source web-scalable search engine) - http://lucene.apache.org/nutch/
- Apache Hadoop - http://lucene.apache.org/hadoop/
- Compass
- JXTA Search - http://search.jxta.org/
- XQEngine(XML Query Engine) - http://xqengine.sourceforge.net/
PHP
Perl
中文資源
- 搜索引擎研究 - http://www.wespoke.com/
相關文章
- Google的啓示
- 中文分詞和搜索引擎
- 中文搜索引擎技術揭密:中文分詞
- 中文搜索引擎技術揭密:排序技術
- 中文搜索引擎技術揭密: 網絡蜘蛛
- 中文搜索引擎技術揭密:系統架構
- 在 Linux 上構建 Web spider
- [中文/英文搜索引擎推廣登錄入口 ]
- [2006chinese search engine Situation ]
相關鏈接
- Search Engine Watch - http://searchenginewatch.com/
- Search Tools - http://www.searchtools.com/
- The Web Robots Pages : http://www.robotstxt.org/wc/robots.html ,一些很好的規則定義以及定義了Robots協議
- Guidelines for Robot Writers : http://www.robotstxt.org/wc/guidelines.html
- SearchTools.com: http://www.searchtools.com/robots/ ,All About Search Indexing Robots and Spiders