搜索引擎發展史[轉摘]

       1990年以前,沒有任何人能搜索互聯網。

  所有搜索引擎的祖先,是1990年由Montreal的McGill University學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie(Archie FAQ)。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,由於大量的文件散佈在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage等想到了開發一個可以用文件名查找文件的系統,於是便有了Archie。Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載該文件。

  由於Archie深受歡迎,受其啓發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜索工具。

  Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程序。由於專門用於檢索信息的Robot程序象蜘蛛(spider)一樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱爲spider(Spider FAQ)程序。世界上第一個Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用於追蹤互聯網發展規模。剛開始它只用來統計互聯網上的服務器數量,後來則發展爲也能夠捕獲網址(URL)。

  與Wanderer相對應,1993年10月Martijn Koster創建了ALIWEBMartijn Koster Annouces the Availability of Aliweb),它相當於Archie的HTTP版本。ALIWEB不使用網絡搜尋Robot,如果網站主管們希望自己的網頁被ALIWEB收錄,需要自己提交每一個網頁的簡介索引信息,類似於後來大家熟知的Yahoo。

  隨着互聯網的迅速發展,使得檢索所有新出現的網頁變得越來越困難,因此,在Wanderer基礎上,一些編程者將傳統的Spider程序工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的鏈接,那麼從一個網站開始,跟蹤所有網頁上的所有鏈接,就有可能檢索整個互聯網。到1993 年底,一些基於此原理的搜索引擎開始紛紛涌現,其中最負盛名的三個是:Scotland的JumpStation、Colorado 大學Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在數據庫中找到匹配信息的先後次序排列搜索結果,因此毫無信息關聯度可言。而RBSE是第一個索引Html文件正文的搜索引擎,也是第一個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。

  Excite 的歷史可以上溯到1993年2月,6個Stanford(斯坦福)大學生的想法是分析字詞關係,以對互聯網上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目Architext,他們還發布了一個供webmasters在自己網站上使用的搜索軟件版本,後來被叫做Excite for Web Servers。(注:Excite後來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile

  1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線。除了網站搜索,它還支持Gopher和Telnet搜索。

 

  1994年4月,Stanford University的兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo共同創辦了YahooJerry Yang Alerts a Usenet group to the Yahoo Database 1996年的Yahoo)。隨着訪問量和收錄鏈接數的增長,Yahoo目錄開始支持簡單的數據庫搜索。因爲Yahoo!的數據是手工輸入的,所以不能真正被歸爲搜索引擎,事實上只是一個可搜索的目錄。Wanderer只抓取URL,但URL信息含量太小,很多信息難以單靠URL說清楚,搜索效率很低。Yahoo!中收錄的網站,因爲都附有簡介信息,所以搜索效率明顯提高。(注:Yahoo以後陸續使用Altavista、Inktomi、Google提供搜索引擎服務)

  1994年初,Washington大學CS學生Brian Pinkerton開始了他的小項目WebCrawlerBrian Pinkerton Announces the Availability of Webcrawler)。 1994年4月20日,WebCrawler正式亮相時僅包含來自6000個服務器的內容。WebCrawler是互聯網上第一個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個字。(後來webcrawler陸續被AOL 和Excite收購,現在和excite一樣改用元搜索引擎Dogpile)

  LycosCarnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一個重要的進步。Carnegie Mellon University的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創建了Lycos。1994年7月20日,數據量爲54,000的Lycos正式發佈。除了相關性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜索引擎的數據量: 1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服務)

  InfoseekSteve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一個重要的搜索引擎,雖然公司聲稱1994年1月已創立,但直到年底它的搜索引擎才與公衆見面。起初,Infoseek只是一個不起眼的搜索引擎,它沿襲Yahoo!和Lycos的概念,並沒有什麼獨特的革新。但是它的發展史和後來受到的衆口稱讚證明,起初第一個登臺並不總是很重要。Infoseek 友善的用戶界面、大量附加服務(such as UPS tracking, News, a directory, and the like) 使它聲望日隆。而1995年12月與Netscape的戰略性協議,使它成爲一個強勢搜索引擎:當用戶點擊Netscape瀏覽器上的搜索按鈕時,彈出 Infoseek的搜索服務,而此前由Yahoo!提供該服務。(注:Infoseek後來曾以相關性聞名,2001年2月,Infoseek停止了自己的搜索引擎,開始改用Overture的搜索結果)

 

  1995年,一種新的搜索引擎形式出現了——元搜索引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜索引擎,是Washington大學碩士生 Eric SelbergOren Etzioni Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。

 

  DEC的AltaVista(2001年夏季起部分網友需通過p-roxy訪問,無p-roxy可用qbseach單選altavista搜索,只能顯示第一頁搜索結果)是一個遲到者,1995年12月才登場亮相(AltaVista Public Beta Press Release )。但是,大量的創新功能使它迅速到達當時搜索引擎的頂峯。Altavista最突出的優勢是它的速度(搜索引擎9238:比較搞笑,設計altavista的目的,據說只是爲了展示DEC Alpha芯片的強大運算能力)。
  而Altavista的另一些新功能,則永遠改變了搜索引擎的定義。
  AltaVista是第一個支持自然語言搜索的搜索引擎,AltaVista是第一個實現高級搜索語法的搜索引擎(如AND, OR, NOT等)。用戶可以用AltaVista搜索Newsgroups(新聞組)的內容並從互聯網上獲得文章,還可以搜索圖片名稱中的文字、搜索 Titles、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱是第一個支持用戶自己向網頁索引庫提交或刪除URL的搜索引擎,並能在24小時內上線。AltaVista最有趣的新功能之一,是搜索有鏈接指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區域下放了“tips”以幫助用戶更好的表達搜索式,這些小tip經常更新,這樣,在搜索過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛採用。1997年,AltaVista發佈了一個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜索結果中找到想要的。

  然後到來的是HotBot。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier創立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜索引擎的新內容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設置。(Hotbot曾是隨後幾年最受歡迎的搜索引擎之一,後被Lycos收購)

  Northernlight 公司於1995年9月成立於馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現身。它曾是擁有最大數據庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法,第一個支持對搜索結果進行簡單的自動分類。(2002年1月16日,Northernlight公共搜索引擎關閉,隨後被divine收購,但在Nlresearch,選中"World Wide Web only",仍可使用Northernlight搜索引擎)

  1998年10月之前,Google只是Stanford大學的一個小項目BackRub。1995年博士生Larry Page開始學習搜索引擎設計,於1997年9月15日註冊了google.com的域名,1997年底,在Sergey BrinScott HassanAlan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。
  Google在Pagerank、動態摘要、網頁快照、DailyRefresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠改變了搜索引擎的定義。
  在2000年中以前,Google雖然以搜索準確性備受讚譽,但因爲數據庫不如其它搜索引擎大,缺乏高級搜索語法,所以使用價值不是很高,推廣並不快。直到2000年中數據庫升級後,又借被Yahoo選作搜索引擎的東風,才一飛沖天。

  Fast(Alltheweb)公司創立於1997年,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,發佈了自己的搜索引擎AllTheWeb。Fast創立的目標是做世界上最大和最快的搜索引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。

  Teoma 起源於1998年Rutgers大學的一個項目。Apostolos Gerasoulis教授帶領華裔Tao Yang教授等人創立Teoma於新澤西Piscataway,2001年春初次登場,2001年9月被提問式搜索引擎Ask Jeeves收購,2002年4月再次發佈。Teoma的數據庫目前仍偏小,但有兩個出彩的功能:支持類似自動分類的Refine;同時提供專業鏈接目錄的Resources。

  Wisenut 由韓裔Yeogirl Yun創立。2001年春季發佈Beta版,2001年9月5日發佈正式版,2002年4月被分類目錄提供商looksmart收購。wisenut也有兩個出彩的功能:包含類似自動分類和相關檢索詞的WiseGuide;預覽搜索結果的Sneak-a-Peek。

  Gigablast 由前Infoseek工程師Matt Wells創立,2002年3月展示pre-beta版,2002年7月21日發佈Beta版。Gigablast的數據庫目前仍偏小,但也提供網頁快照,一個特色功能是即時索引網頁,你的網頁剛提交它就能搜索(注:這個spammers的肉包子功能暫已關閉)。

  Openfind 創立於1998年1月,其技術源自臺灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先只做中文搜索引擎,曾經是最好的中文搜索引擎,鼎盛時期同時爲三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基於GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣佈累計抓取網頁35億,開始進入英文搜索領域,此後技術升級明顯加快。

  北大天網 是國家"九五"重點科技攻關項目"中文編碼和分佈式中英文信息發現"的研究成果,由北大計算機系網絡與分佈式系統研究室開發,於1997年10月29日正式在CERNET上提供服務。2000年初成立天網搜索引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜索功能。

 

  Baidu 2000年1月,超鏈分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關村創立了百度(Baidu)公司。2001年8月發佈 Baidu.com搜索引擎Beta版(此前Baidu只爲其它門戶網站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發佈Baidu搜索引擎。Baidu雖然只提供中文搜索,但目前收錄中文網頁超過9000萬,可能是最大的的中文數據庫。Baidu搜索引擎的其它特色包括:網頁快照、網頁預覽/預覽全部網頁、相關搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計劃(Blitzen Project)開始後,技術升級明顯加快。  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章