基於P2P的Web搜索強於集中式搜索引擎？

原創

2020-02-25 22:28

搜索引擎已經成爲一種重要的網絡信息導航工具,它幫助人們在海量 Web 數據中快速方便地找到所需信息.隨着 Web數據量的持續快速增長,傳統集中式搜索引擎已經越來越不能滿足人們不斷增長的信息獲取需求.一方面,集中式搜索引擎的服務器處理能力有限,目前最好的搜索引擎之一 Google 使用上萬臺 PC 組成的機羣服務器,也只能索引到整個 Web 網頁總數的大約 1/10,這還不包括數量爲表層網頁（surface web）400～500 倍的深層網頁（deep web）,而且,目前的集中式搜索引擎對數據的更新週期都比較長,很難滿足人們對信息時效性的需求.另一方面,受網絡爬蟲（Web Crawler）的信息採集能力所限,傳統搜索引擎很難深度挖掘深層網頁信息.再者,傳統搜索引擎很難實現個性化搜索服務,它對不同需求的用戶通常都返回相同的結果.
最近幾年,P2P技術發展勢頭強勁.P2P 是區別於傳統C/S模式的一種新型計算模式,它將高度分佈的大量普通結點資源組織在一起,每個結點都擁有對等的地位,在享受其他結點提供服務的同時也爲其他結點提供服務.由於 P2P 網絡具有集中式服務網絡所缺乏的優勢:可擴展性強、容錯性好、成本低廉、充分利用分佈資源等,它在文件共享、分佈式計算、分佈式存儲、協同工作、應用層組播、流媒體服務等方面已有廣泛應用.

從搜索引擎的角度看,P2P 技術的快速發展引出了兩個重要問題:首先,由於 P2P 網絡中存在的數據不斷增長,有必要爲 P2P 網絡提供搜索服務;另一方面,P2P 系統提供了大量的計算和存儲資源,這些資源可以用來實現對系統外部信息的搜索和挖掘功能.由此引出了一個重要的研究領域——基於 P2P 的 Web 搜索,也就是在 P2P網絡中構建 Web 搜索引擎,提供搜索服務.

與傳統的集中式搜索引擎相比,基於 P2P 的 Web 搜索具有很多優勢:

分佈式:
P2P 是典型的分佈式系統,而 Web 本身廣泛分佈的特性使得 Web 搜索天生就適合利用 P2P 結構來處理.
可擴展性:Web 的巨大規模對 Web 搜索系統的可擴展性提出了嚴峻的挑戰,而 P2P 系統具有良好的可擴展性,它可以將大量結點連接起來形成一個巨大的資源池來提供服務.P2P 系統強大的聚合處理能力爲在 Web 搜索中引入更多的先進技術和方法提供了保證,例如統計學習、計算語言學、本體知識推理等方法.
低成本:P2P 系統通常由邊緣網絡中的大量普通結點組成,充分利用這些結點的閒置資源來提供服務,因此成本相對低廉.而且結點之間往往是自組織的,這也大大節省了系統的管理和維護成本.
魯棒性:傳統搜索引擎採用集中式結構,其中心服務器存在單點失效問題,往往成爲性能瓶頸和安全隱患,而 P2P 系統則不存在這樣的問題.
對深層網頁的處理能力:深層網頁主要指那些存儲在網站數據庫中以動態網頁的形式來提供服務的 Web信息.深層網頁數量巨大,但很難用傳統搜索引擎所使用的網絡爬蟲來採集,而 P2P 搜索則爲此提供了一條可行的方案:這些信息提供者可以作爲結點加入 P2P 網絡,主動將這些信息貢獻出來提供搜索服務,這將使人們能通過搜索引擎獲取更豐富的信息.
個性化搜索:利用 P2P 系統的特點,更容易利用用戶協作、根據用戶興趣偏好以及地理位置等個性化特徵提供個性化搜索服務,以滿足不同用戶的不同需求.
打破信息壟斷:傳統的集中式搜索引擎令很多人擔心會產生信息壟斷現象,它們易受商業利益、內容審查和垃圾信息等因素的影響,而基於 P2P 的 Web 搜索則可以打破這種可能的壟斷.

基於 P2P 的 Web 搜索可以彌補傳統集中式搜索引擎的很多不足,正吸引着越來越多研究者的關注,不過該領域研究尚處於起步階段,很多問題都沒有得到解決.本文試圖對目前基於 P2P 的 Web 搜索技術的研究現狀做一個較爲全面的總結,包括該領域面臨的挑戰、關鍵技術、已有的原型系統等方面,從而爲進一步研究提供參考.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於P2P的Web搜索強於集中式搜索引擎？

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Lucene 3.0 分詞 IKAnalyzer

Lucene Payload 的研究與應用

university 4/n (45)

helios 的 uml2 工具要從macket place下載

university 2/n

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結