什麼是搜索引擎

       搜索引擎Search Engine)是指根據一定的策略、運用特定的計算機程序互聯網上搜集信息,在對信息進行組織處理後,爲用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引目錄索引元搜索引擎垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。

定義

   一個搜索引擎由搜索器 索引器 、檢索器 和用戶接口 四個部分組成。搜索器的功能是在互聯網 中漫遊,發現和蒐集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。

分類

全文索引

   搜索引擎分類部分提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息蒐集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出蜘蛛程序,對一定IP地址範圍內的互聯網網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出蜘蛛程序,掃描你的網站並將有關信息存入數據庫,以備用戶查詢。隨着搜索引擎索引規則發生很大變化,主動提交網址並不保證你的網站能進入搜索引擎數據庫,最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你並自動將你的網站收錄

   當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵詞的匹配程度、出現的位置、頻次、鏈接質量——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用戶。這種引擎的特點是搜全率比較高。

目錄索引

   目錄索引也稱爲:分類檢索,是因特網上最早提供WWW資源查詢的服務,主要通過蒐集和整理因特網的資源,根據搜索到網頁的內容,將其網址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結構索引。目錄索引無需輸入任何文字,只要根據網站提供的主題分類目錄,層層點擊進入,便可查到所需的網絡信息資源。

雖然有搜索功能,但嚴格意義上不能稱爲真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞Keywords)進行查詢。

與全文搜索引擎相比,目錄索引有許多不同之處。

   首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功;而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其像Yahoo這樣的超級索引,登錄更是困難。

此外,在登錄搜索引擎時,一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。

   最後,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認爲你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。

搜索引擎與目錄索引有相互融合***的趨勢。一些純粹的全文搜索引擎也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像Yahoo! ;這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍(注)。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如中國的搜狐新浪網易等;而另外一些則默認的是網頁搜索,如Yahoo。這種引擎的特點是找的準確率比較高。

元搜索

   元搜索引擎METASearch Engine)接受用戶查詢請求後,同時在多個搜索引擎上搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpaceDogpileVivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo

垂直搜索

   垂直搜索引擎2006年後逐步興起的一類搜索引擎。不同於通用的網頁搜索引擎,垂直搜索專注於特定的搜索領域和搜索需求(例如:機票搜索、旅遊搜索、生活搜索、小說搜索、視頻搜索、購物搜索等等),在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數千臺檢索服務器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。

集合式搜索

   集合式搜索引擎:該搜索引擎類似元搜索引擎,區別在於它並非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot2002年底推出的搜索引擎。

門戶搜索

   門戶搜索引擎:AOLSearchMSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。

免費鏈接

   免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

工作原理

   第一步:爬行

   搜索引擎是通過一種特定規律的軟件跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網上爬行一樣,所以被稱爲蜘蛛也被稱爲機器人。搜索引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或文件的內容。

   第二步:抓取存儲

   搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,並將爬行的數據存入原始頁面數據庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時,也做一定的重複內容檢測,一旦遇到權重很低的網站上有大量抄襲、採集或者複製的內容,很可能就不再爬行。

   第三步:預處理

   搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。

        提取文字

        中文分詞

        去停止詞

        消除噪音(搜索引擎需要識別並消除這些噪聲,比如版權聲明文字、導航條、廣告等……

        5.正向索引

        6.倒排索引

        7.鏈接關係計算

        8.特殊文件處理

   除了HTML 文件外,搜索引擎通常還能抓取和索引以文字爲基礎的多種文件類型,如 PDFWordWPSXLSPPTTXT 文件等。我們在搜索結果中也經常會看到這些文件類型。 但搜索引擎還不能處理圖片、視頻、Flash 這類非文字內容,也不能執行腳本和程序。

   第四步:排名

   用戶在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由於搜索引擎的數據量龐大,雖然能達到每日都有小的更新,但是一般情況搜索引擎的排名規則都是根據日、周、月階段性不同幅度的更新。

   選擇與網站內容相關搜索次數多,競爭小主關鍵詞,不可太寬泛主關鍵詞,不太特殊商業價值提取文字中文分詞去停止詞消除噪聲去重正向索引倒排索引鏈接關係計算特殊文件處理。

 

 

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章