搜索引擎概述

搜索引擎定義
Search Engine 是指根據一定的策略,運用特定的計算機程序收集互聯網上的信息,在對信息進行組織和處理後,將處理後的信息顯示給用戶,是爲用戶提供檢索服務的系統。

搜索引擎分類(按照工作方式)
1.全文搜索引擎(百度,谷歌)
     Full Text Search Engine,從互聯網提取各個網站的信息(以網頁文字爲主),建立起數據庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。根據搜索結果來源的不同,全文搜索引擎可分爲兩類,一類擁有自己的網頁抓取、索引、檢索系統(Indexer),有獨立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機器人”(Robot)程序(這三者意義相同),能自建網頁數據庫,搜索結果直接從自身的數據庫中調用;另一類則是租用其他搜索引擎的數據庫,並按自定的格式排列搜索結果。全文搜索引擎的自動信息收集可以分爲定期搜索(搜索引擎主動派出蜘蛛)和提交網站搜索(網站擁有者主動提交網站)。

2.目錄索引搜索引擎(新浪目錄分類搜索)
     Search Index/Directory,將網站分門別類地存放在相應的目錄中。
3.元搜索引擎
     Meta Search Engine,元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索並將結果返回給用戶。在搜索結果排列方面,有的直接按來源引擎排列搜索結果。有的則按自定的規則將結果重新排列組合。

搜索引擎的工作原理
1.抓取網頁
     每個獨立的搜索引擎都有自己的網頁抓取程序(spider,蜘蛛程序)。Spider順着網頁中的超鏈接,連續地抓取網頁,被抓取的網頁被稱之爲網頁快照

2.處理網頁
     搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件,其他還包括去除重複網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。

3.提供檢索服務
     用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁。


搜索引擎組成部分
   搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個部分組成。
  一個搜索引擎的有效性在很大程度上取決於索引的質量。 
搜索器:在互聯網中漫遊,發現和蒐集信息。(蜘蛛程序)
索引器:理解搜索器所搜索到的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
檢索器:根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,並能按用戶的查詢需求合理反饋信息;
用戶接口:接納用戶查詢、顯示查詢結果、提供個性化查詢項。(HTML頁面)




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章