搜索引擎地位及其發展歷史

搜索引擎已成爲互聯網最重要的應用之一,這一點毫無疑義這也是爲何國內各大互聯網公司也希望切入搜索市場的主要原因。那麼溫和搜索引擎如此重要呢?
互聯網信息量在過去的15年獲得了爆炸性的增長,信息過載的問題就目前來說非常重要,隨着互聯網個性化的發展趨勢逐步展現,普通用戶發佈信息的成本越來越低,這個問題將會更加嚴重。這是搜索引擎相關應用越來越重要的一個基礎背景。搜索是目前解決信息過載的相對有效方式,在沒有更有效的替代解決方式出來之前,搜索引擎作爲互聯網網站和應用的入口處於行業制高點的重要地位只是逐步加強

儘管不論國際還是國內出現了一種新的現象,即成功的新互聯網公司屏蔽搜索引擎公司爬蟲,比如Facebook對Google的屏蔽,國內電子商務站點淘寶對百度的屏蔽。但是這種現象僅僅是商業公司之間的競爭策略,也可看做是垂直搜索和通用搜索的競爭,但並非搜索應用與非搜索應用的競爭。即便是Facebook和淘寶,面對自己用戶產生的海量數據,依然要依靠搜索來爲用戶提供滿意的服務,區別 僅僅在於是自己來提供還是第三方公司來提供。所以這種現象並不能作爲搜索引擎服務式微的證據。從搜索引擎所採取的技術來說,可以將搜索引擎技術的發展劃分爲4 個時代:
史前時代:分類目錄的一代
這個代也可以稱爲"導航時代"Yahoo和國內hao123是這個時代的代表。通過人工收集整理,把屬於各個類別的高質量網站或者網頁分門 別類羅列,用戶可以根據分級目錄來查找高質量網站。這種方式是純人工的方式並未採取什麼高深的技術手段。採取分類目錄的方式,一般被收錄的網站質量較高,但是這種方式可擴展性不強,絕大部分網站不能被收錄。
第一代:文本檢索的一代
文本檢索的一代採用經典的信息檢索模型,比如布爾模型、向量空間模型或者概率模型,來計算用戶查詢關鍵詞和網頁文本內容的相關程度。網頁之間有豐富的鏈接關係,而這一代搜索引擎並未使用這些信息早期的很多搜索引擎比如AltaVista、Excite等大都採取這種模式。相比分類目錄,這種方式可以收錄大部分網頁,並能夠按照網頁內容和用戶查詢的匹配程度進行排序。但是總體而言,搜索結果質量不是很好。
第二代:鏈接分析的一代
這一代的搜索引擎充分利用了網頁的鏈接關係,並深入挖掘和 利用了網頁鏈接所代表的含義。通常而言,網頁鏈接代表了一種推薦關係,所以通過鏈接分析可以在海量內容中找出重要的網頁。這種重要性本質上是對網頁流行程度的一種衡量,因爲被推薦次數多的網頁其實代表了其具有流行性。搜索引擎通過結合網頁流行性和內容相似性來改善搜索質量。Google率先提出並使用pagerank鏈接分析技術,並大或成功,這同時引起了學術界和其他商業搜索引擎都採取了鏈接分析技術。採用鏈接 析能夠有效個改善搜索結果質量,但是這種搜索引擎並未考慮用戶的個性化要求,所以只要輸入的查詢請求相同,所有用戶都會獲得相同的搜索結果。另外,很多網站擁有者獲得更高的搜索排名,針對鏈接分析算法提出了不少鏈接作弊方案,這樣導致搜素結果質量變差。
第三代:用戶中心的一代
目前的搜索引擎大都可以歸入第三代,即以理解用戶需求爲核心。不同用戶即使輸入同一個查詢關鍵詞,但其目的也有可能不一樣。比如同樣輸入"蘋果"作爲查詢詞,一個追捧iphone的時尚青年和一個果農的目的會有相當大的差距。即使是同一個用戶,輸入相同的查詢詞,也會因爲所在的時間和場合不同,需求有所變化。而目前搜索引擎大都致力於解決如下問題:如何能夠理解用戶發出的某個很短小的查詢詞背後包含的真正需求所以這一代搜索引擎稱之爲以用戶爲中心的一代。爲了能夠取用戶的真實需求,目前搜索引擎大都做了很多技術方面的嘗試。比如利用用戶發送查詢詞時的時間和地理位置信息,利用用戶過去發出的查詢詞及相應的點擊記錄等歷史信息等技術手段,來試圖理解用戶此時此地的真正需求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章