國內搜索引擎技術現狀 zZ

 
當你登錄某一個網站,在互聯網上搜索各個網站的某一類內容,比如,輸入“WTO”,希望得到最新、最全面的信息,你能等待多長時間?

幾年前,人們希望十幾秒,最多30秒鐘就能得到結果,而現在的期望值是1~2秒,也就是說,伴隨點擊鼠標的“咔噠”一聲,顯示屏的頁面已經變了,排在最前面的十幾、二十條信息的標題已經出現在你的面前。

哪個網站的搜索速度明顯地變快了,那它一定是使用了先進的搜索引擎技術。搜索引擎是僅次於門戶的互聯網第二大核心技術,要用到信息檢索、人工智能、計算機網絡、分佈式處理、數據庫、數據挖掘、數字圖書館、自然語言處理等多領域的理論和技術,所以具有綜合性和挑戰性。伴隨互聯網的普及和網上信息的爆炸式增長,它越來越引起人們的重視。

成功的百度
要談國內搜索引擎技術應用現狀則不能不談百度。美國的網絡門戶多是以搜索引擎起家的,國內搜索引擎的發展卻一直不盡如人意,這種情況直到2000年下半年才結束:年輕的百度公司迅速地拿下了硅谷動力、Chinaren、搜狐、新浪、21CN、廣州視窗、263、TOM等門戶網站的全文搜索引擎服務,成爲中文檢索市場中的佼佼者。

百度的成功對中文搜索的貢獻很大,不但提供給門戶網站以質優價平的搜索引擎,使中國網民有更好的搜索體驗,也因爲百度的成功,激勵了同行的進取心,使得國內中文搜索引擎的發展進入你爭我趕的良性發展時代。最近一年來,中文搜索引擎的進步成了互聯網行業的一個亮點。

老將出奇兵
在傳統的網站分類目錄搜索方面,新浪、網易、搜狐各出奇兵。新浪依託自身良好的技術實力和新聞優勢,推出了綜合搜索,省卻了用戶分門別類搜索的麻煩,只要輸入一次想搜索的關鍵詞,就能得到網站、網頁、新聞、商品等常用信息,層次分明,一目瞭然,在保持快速、準確的基礎上,給用戶提供了更多的選擇。

網易則利用它良好的網蟲資源,網聚人的力量,做起了開放式目錄。互聯網上各行各業的高手紛紛加盟,使得網易的網站分類目錄一天比一天好。網易還進一步挖掘搜索引擎的潛力,推出了把搜索結果通過手機短信發送的功能。而搜狐,則主要把大量的人力物力花在網站分類目錄的整理上,成爲分類合理的網站分類目錄。

易易尋公司主要致力於發展多媒體搜索引擎,它推出了被業內人士推崇的中文圖像搜索引擎,使互聯網上的多媒體信息開始能被網友方便地利用。

由北大計算機系網絡研究室開發的天網搜索引擎,收錄了大量教育網內資源,使教育網內的資源也能被廣泛利用起來,特別是它的FTP搜索部分,提供了非常豐富的下載資源。並且,經過今年春季的升級,檢索速度有了明顯提升。

Openfind(網擎)以“搜尋有價”的新觀念,推出“CIA 網路情報員”實時信息付費訂閱服務。用戶可以付費訂閱指定關鍵字的最新信息,這是開發搜索引擎的價值的另一種嘗試。Openfind曾是一個優秀的中文全文搜索引擎,當它的搜索引擎客戶被後起之秀一個個搶走時,曾有傳言說它準備退出門戶式搜索引擎的競爭,但事實證明,它仍在努力升級,如今某些方面已經跟領先的百度差別不大。

應用發展方向
百度搜索引擎這半年來除了一直是最大的中文搜索引擎,在搜索的相關性上也不斷升級。它把門戶網站用的搜索引擎技術應用於中小網站和企業的需要,開發了百度網事通Web和網事通Real搜索。特別值得一提的是網事通Real,其實是一個實時新聞搜索引擎,可以同時監控和檢索幾千個網站在一分鐘前發佈的新聞,也能被當做信息監控工具使用。據說某些企業購買來監控各大論壇裏的信息,既能收集競爭情報,又能在出現不利企業的信息時及時處理。

目前國內搜索引擎對潛在價值的開發明顯不夠,在應用上,下一步的發展方向是:

  • 1.網站內和企業局域網內搜索引擎的普及化
    搜索引擎作爲基礎軟件已經在國外得到廣泛的認同,不僅大型門戶網站如美國在線、雅虎、亞馬遜等等每一個著名網站的首頁都在顯著位置放置了搜索框,就連迪斯尼、麥當勞、美孚石油這些傳統企業也都無一例外地在它們的首頁上放置了搜索框或搜索功能的鏈接。美國500強中使用搜索引擎的網站幾乎達到100%。國內企業往這個方向發展是自然而然的事。
  • 2.實時新聞檢索(包括新聞訂閱、監控、定向情報收集等)的廣泛應用
    Openfind推出“CIA網路情報員”,百度推出“網事通real”,慧聰推出“網神”都證明它們已經覺察到了這個發展方向。這其實也是互聯網搜索引擎從提供無序低價值信息往提供高質高價值信息方向的轉變。
  • 3.搜索引擎統計數據的應用
    搜索引擎擁有龐大的流量和特徵明顯的信息,CNNIC早已認識到了搜索引擎的價值,所以在最近一期的互聯網狀況調查中利用了百度搜索引擎的統計結果。而著名的yahoo乾脆開始出售它的搜索引擎統計數據,這都是搜索引擎統計信息的價值反映。
  • 4.搜索引擎收費登錄服務
    國內搜索引擎應用有很長一段時間都是搜索引擎獨自在唱戲,只能虧本,而網站和網民只有看戲的份,這不是一個良性循環,不利於搜索引擎行業的發展。而近期,情況開始改觀,搜狐、新浪焦點的商業網站收費收錄服務、網易和263的搜索關鍵詞定向廣告、百度的搜索引擎競價排名服務,有可能促使搜索引擎、網站、網民三者的需求取得和諧。
    在技術上,國內搜索引擎在短期內還不會在以下方面有真正的進步,僅停留在美好願望:自然語言檢索、語音檢索、視頻搜索、用戶個性化搜索引擎、交叉語言搜索引擎、具實用性的模糊檢索。

但在以下這些問題,卻可能在短期內取得明顯的進展:網頁數量、網頁緩存、動態摘要、重複網頁、數據庫更新期、動態網頁抓取、自動分類、定製搜索服務、BBS 搜索、Frame網頁、不可索引文件的鏈接索引、切詞、死鏈接、網頁搜索和分類目錄的結合、錯誤關鍵字的提示、pdf/XML等特殊格式文件索引。

發佈了53 篇原創文章 · 獲贊 4 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章