搜索引擎的相關技術

原創

自由人2008

2020-03-18 08:16

在整個的搜索過程中，涉及到的技術主要有：中文分詞、排序技術、網絡蜘蛛等。

（1）中文分詞。英文是以詞爲單位的，詞和詞之間是靠空格隔開，而中文是以字爲單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am Chinese，翻譯成中文是：“我是中國人”。計算機可以很簡單通過空格知道student是一個單詞，但是不能很容易明白「中」、「國」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱爲切詞。我是中國人，分詞的結果是：我是中國人。現有的分詞算法可分爲三大類：基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

（2）排序技術。類似於曝光率，誰出現的次數最多，誰排在前面。在互聯網上，鏈接就相當於“曝光”，在B網頁中鏈接了A，相當於B在談話時提到了 A，如果在C、D、E、F中都鏈接了A，那麼說明A網頁是最重要的，A便會排在最前面。另外還有HillTop算法等等。

（3）網絡蜘蛛。網絡蜘蛛即Web Spider，是一種很形象的搜索網頁的技術。把互聯網比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完爲止。如果把整個互聯網當成一個網站，那麼網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

在抓取網頁的時候，網絡蜘蛛一般有兩種算法：廣度優先和深度優先。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁，然後再選擇其中的一個鏈接網頁，繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式，因爲這個方法可以讓網絡蜘蛛並行處理，提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。

本文經過閱覽很多國外和國內的資料編寫而成，如果造成侵權問題，請及時聯繫我，及時更改。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜索引擎的相關技術

手機APP與原生APP設計的區別

修改Ubuntu 12.04和Windows 7共存時的啓動順序

原來GitHub真的沒有這麼簡單

關於linux上使用新無線網卡碰到的問題

搜索引擎的相關技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結