搜索引擎的相關技術

 
在整個的搜索過程中,涉及到的技術主要有:中文分詞、排序技術、網絡蜘蛛等。
(1)中文分詞。英文是以詞爲單位的,詞和詞之間是靠空格隔開,而中文是以字爲單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am Chinese,翻譯成中文是:“我是中國人”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白「中」、「國」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱爲切詞。我是中國人,分詞的結果是:我 是 中國 人。現有的分詞算法可分爲三大類:基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
(2)排序技術。類似於曝光率,誰出現的次數最多,誰排在前面。在互聯網上,鏈接就相當於“曝光”,在B網頁中鏈接了A,相當於B在談話時提到了 A,如果在C、D、E、F中都鏈接了A,那麼說明A網頁是最重要的,A便會排在最前面。另外還有HillTop算法等等。
(3)網絡蜘蛛。網絡蜘蛛即Web Spider,是一種很形象的搜索網頁的技術。把互聯網比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完爲止。如果把整個互聯網當成一個網站,那麼網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
在抓取網頁的時候,網絡蜘蛛一般有兩種算法:廣度優先和深度優先。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然後再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因爲這個方法可以讓網絡蜘蛛並行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。
 
本文經過閱覽很多國外和國內的資料編寫而成,如果造成侵權問題,請及時聯繫我,及時更改。 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章