技術與人文的結晶 ——搜索引擎技術漫談

技術與人文的結晶

——搜索引擎技術漫談

康樂



面對浩瀚的信息海洋,人們常常無所適從。而網絡搜索引擎的出現,恰似一葉輕舟,載着我們在海洋裏隨意遨遊。搜索引擎很快就成爲我們掌握知識的利器。

作爲Internet必不可少的工具,搜索引擎的地位越來越高。不僅如此,隨着Internet應用的不斷加深,搜索引擎正成爲舉足輕重的網絡基礎設施。

搜索引擎的基礎設施作用體現在三個方面:第一,必不可少。如果沒有搜索引擎,全世界一半的網頁將沒有任何使用價值。第二,涉及面廣。搜索引擎技術涉及到系統技術、網絡技術、多媒體技術、語言處理技術、人工智能技術等。第三,越來越多的“關注”。專注於搜索引擎的專業廠商不斷增加,新的搜索引擎技術不斷涌現,搜索引擎的表現形式也多種多樣,甚至使用的時候都意識不到它的存在。

技術本質

技術源於需求。需求的多樣化導致了技術實現的多樣化,而多樣化使我們的世界呈現和諧之美。

最早的搜索引擎打破了目錄之間的隔閡,只是將結果羅列出來。隨後,結果相關度排序、邏輯查詢、結果中查詢等技術提高了搜索的準確度;文章重要程度排序、用戶行爲分析技術更加符合用戶心理。如今,自然語言理解、智能查詢、垂直搜索等技術使搜索變得更簡單、更有價值,也更吸引用戶。

需求的差異導致技術應用的差異,而差異化正是新產品立足的根本。對需求的細分以及不同的技術手段,形成了搜索引擎產品百花齊放的局面。

傳統與現代

即使沒有Internet,搜索引擎也存在併發揮着作用,例如在情報檢索、圖書檢索、新聞出版等傳統領域的應用,搜索範圍也從簡單文本到大容量數據庫不斷髮展,搜索技術也從關鍵詞查找到全文檢索不斷進步。

迅速發展的Internet改變了一切,新的網絡搜索引擎比傳統搜索引擎有了質的飛躍。在數據量上,傳統搜索引擎面對的是增長緩慢的、有限的數據(幾萬、幾十萬的量是最常見的),但是網絡搜索引擎面對的是快速增長的、幾乎無限的數據。Google已經可以搜索20億個頁面。量的變化帶來了質的變化。

傳統搜索引擎技術用到的算法面對海量數據變得非常笨拙;傳統搜索引擎技術用到的數據結構,面對海量數據時已經無法表示;傳統搜索引擎主要用於單機結構,而網絡搜索引擎則在分佈式環境中工作。因此,現代的網絡搜索引擎技術已同傳統的搜索引擎技術在算法、計算環境、理論模型等方面有了根本的不同。各種綜合技術的運用及人性關懷使得網絡搜索引擎技術上升到了一個新高度。

即使有飛躍,即使有不同,但現代搜索引擎與傳統搜索引擎都有共同的目標,就是查全與查準,只不過新的時代環境爲新技術賦予了更多的內涵。從結構上看,傳統搜索引擎主要有索引與查詢兩部分,而現代搜索引擎主要有蒐集(Robot或Spider的作用)、索引、查詢及結果處理四部分。從核心技術上,現代搜索引擎也離不開傳統的索引、分詞等技術。傳統搜索引擎技術的進展很快會應用在現代搜索引擎技術之中,現代搜索引擎的技術發展思路也大大促進了傳統技術的深入開發。一種新技術融入搜索引擎技術,一種新的搜索引擎便會誕生。

隨着時代的發展,傳統技術在新的環境下會突然發揮它的新作用,成爲一種新技術,就像幾十年前的衣服式樣會在明天成爲時尚一樣。

Internet最初的目錄分類簡直稱不上“技術”,因爲它們太“人工”了。但是幾次輪迴之後,還會有很多的人對目錄分類有着更多的需求,對“人工”有着更高的要求,因爲雖然是人工,但人工知識更有價值,將會產生知識經濟時代的“知識工人”。

綜合技術

時代在發展,新的需求不斷產生,促使技術的不斷產生與融合。

現代搜索引擎技術要用到信息檢索、數據庫、數據挖掘、系統技術、多媒體、人工智能、計算機網絡、分佈式處理、數字圖書館、自然語言處理等許多領域的理論和技術,成爲一種綜合性的技術。

從蒐集過程來看,超鏈分析是一個核心技術,面對無限寬廣的互聯網,如何獲得所需鏈接、索引鏈接 都需要很多的考慮,而鏈接背後的“價值”分析更是充滿了智慧,這種分析就是海量數據中的挖掘技術。相對於廣泛的靜態網頁,動態網頁所包含的信息更有價值,但是種類繁多且不斷髮展的動態網頁技術(如ASP、JSP、CGI等)再加上覆雜的網絡環境,使蒐集過程變得繁重異常。

從索引過程來看,網絡搜索引擎不僅要用到傳統搜索引擎技術,而且還要用到數據庫技術、網頁緩存技術、多媒體技術、分佈式存儲與計算技術,除了索引網頁,還要索引各種媒體,包括文字、動畫、音頻、視頻及其他特殊文件(PDF、XML等)。

查詢在技術上是索引的逆過程,索引就是爲了查詢。但是查詢還要用到用戶輸入技術、代理技術、分詞技術、自然語言處理技術等。這些技術的運用使得索引的價值得以體現,也使得搜索引擎在用戶面前顯得更簡單、更有用。

將最好的查詢結果呈現給用戶是搜索引擎的最終目標。結果排序總的來說是相關度排序技術,還要用到去除重複網頁、用戶行爲分析等技術,也可能用緩存技術爲用戶提供過期的網頁。

以上是從網絡搜索引擎的四個組成部分來說明的。實際上,爲了保證搜索引擎平穩運行,還有諸如系統技術、分佈式技術等在支撐它的運行,例如集羣技術、網絡緩存技術、分發技術等。更重要的是,網絡搜索引擎爲了體現人性關懷,在人機界面上要用到智能化技術與個性化技術。

其他領域的技術必然會帶動搜索引擎技術的發展。新的標準、新的應用也促進着現代搜索引擎的發展。例如XML的出現及廣泛使用,搜索引擎必將提供完全的支持。P2P及網格計算的發展也會使搜索引擎擁有更多的應用。

用戶至上

各種技術層出不窮,技術的發展永無止境,但永遠沒有純粹的技術。過分的商業化使得技術一度偏離它的本質。當企業大聲呼喊“以客戶爲中心”的時候,技術也回到了它的本質。

什麼是最好的搜索引擎技術?

用戶滿意是第一層次。用戶使用搜索引擎的直接目的是找到其所需要的信息,搜索引擎只要做到“查全”與“查準”,就能讓用戶基本滿意。如果再將結果優化,使其對用戶來說更加有效,那麼用戶對這個搜索引擎就會有很高的忠誠度。對用戶來說,技術無所謂高低,達到目標就行,技術從低到高不斷改進、不斷滿足需求就會使用戶滿意。

用戶快樂是第二層次。技術源於需求,也滿足了用戶的需求,如果技術能挖掘出用戶需求背後的需求或用戶自己想不到的需求並實現它們,用戶就能充分享受到技術帶來的快樂。當搜索引擎不光給用戶搜索結果,而且給了他最“權威”的結果最感興趣的結果時,他是快樂的。在知識經濟的大潮中,當每一次搜索都能滿足他“學習”知識的渴望時,他是快樂的。

但是,技術本身不能實現自我。沒有資金,技術就不能實踐。爲了蒐集更多的網頁、提供更快的速度,搜索引擎需要近萬臺服務器,資金暫時限制了技術的發揮。沒有市場,再好的技術都會被人拋棄。這時,恰當的商業化會推動技術的發展。例如,搜索引擎中的廣告、競價排名等商業技術運用,豐富了搜索引擎,滿足了部分用戶的需求。但是赤裸裸的商業化也會使用戶走開。因此,在技術的實現過程中,用戶至上的策略是最好的技術策略。

發展與未來

Internet使得技術的發展日新月異。處在知識經濟基礎設施地位的搜索引擎必將得到更多的重視與發展,搜索引擎技術充滿着機遇與挑戰。

“以用戶爲中心”是不變的宗旨。爲了滿足用戶需求,用戶細分是關鍵。行業用戶、企業用戶、個人用戶有着不同的需求。行業用戶需要搜索引擎聯接一個個信息孤島,實現專業化的信息共享。企業用戶在成爲“學習型企業”時對知識管理有更高的要求,搜索引擎的作用將會十分突出。雖然個人需求也各不相同,但個人用戶面對巨大的Internet時,都需要一把打開大門的鑰匙,而搜索引擎就是一把金光閃閃的鑰匙,能滿足人們“學習”的渴望。因而“知識性”便成爲搜索引擎技術的關鍵。

在搜索引擎的發展方向上,一方面是追求質量,另一方面是模式取勝。人們對質量的追求總是無窮無盡,新的搜索引擎技術將會“更快”——更新快、速度快;“更大”——數據容量更大;“更強”——智能化、結果更讓人滿意。新事物總有無可匹敵的優勢。模式取勝關鍵在於發掘需求、細分需求,滿足人的深層次的需求,例如各種多媒體的專向搜索、各種專業的垂直搜索都會有廣闊的市場。

更多新技術的應用與融合,如無線網絡、P2P等,更會給搜索引擎技術帶來新的動力。搜索引擎技術將會有一個美好的未來。

(計算機世界報 第25期 B10、B11)

 

 轉於:http://www2.ccw.com.cn/02/0225/b/0225b03_1.asp

 

 

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章