網頁去重
據統計表明,近似重複網頁的數量佔總網頁數量的比例高達全部頁面的29%,而完全相同的頁面大約佔全部頁面的22%,即互聯網頁面中有相當大的比例的內容是完全相同或者大體相近的重複網頁有多種類型,這些重複網頁有的是沒有一點兒改動的副本,有的在內容上稍做修改,比如同一文章的不同版本,一個新一點,一個老一點,有的則僅僅是網頁的格式不同(如HTML、Postscript)。內容重複可以歸結爲以下4種類型。
· 類型一:如果兩篇文檔內容和佈局格式上毫無差別,則這種重複可以叫做完全重複頁面。
· 類型二:如果兩篇文檔內容相同,但是佈局格式不同,則叫做內容重複頁面。
· 類型三:如果兩篇文檔有部分重要的內容相同,並且佈局格式相同,則稱爲佈局重複頁面。
· 類型四:如果兩篇文檔有部分重要的內容相同,但是佈局格式不同,則稱爲部分重複頁面。
所謂近似重複網頁發現,就是通過技術手段快速全面發現這些重複信息的手段,如何快速準確地發現這些內容上相似的網頁已經成爲提高搜索引擎服務質量的關鍵技術之一。
發現完全相同或者近似重複網頁對於搜索引擎有很多好處。
1. 首先,如果我們能夠找出這些重複網頁並從數據庫中去掉,就能夠節省一部分存儲空間,進而可以利用這部分空間存放更多的有效網頁內容,同時也提高了搜索 引擎的搜索質量和用戶體驗。
2. 其次,如果我們能夠通過對以往收集信息的分析,預先發現重複網頁,在今後的 網頁收集過程中就可以避開這些網頁,從而提高網頁的收集速度。有研究表明重 復網頁隨着時間不發生太大變化,所以這種從重複頁面集合中選擇部分頁面進行 索引是有效的。
3. 另外,如果某個網頁的鏡像度較高,往往是其內容比較受歡迎的一種間接體現也就預示着該網頁相對重要,在收集網頁時應賦予它較高的優先級,而當搜索引擎系統在響應用戶的檢索請求並對輸出結果排序時,應該賦予它較高的權值。
4. 從另外一個角度看,如果用戶點擊了一個死鏈接,那麼可以將用戶引導到一個內容相同頁面,這樣可以有效地增加用戶的檢索體驗。因而近似重複網頁的及時發現有利於改善搜索引擎系統的服務質量。
實際工作的搜索引擎往往是在爬蟲階段進行近似重複檢測的,下圖給出了近似重複檢測任務在搜索引擎中所處流程的說明。當爬蟲新抓取到網頁時,需要和已經建立到索引內的網頁進行重複判斷,如果判斷是近似重複網頁,則直接將其拋棄,如果發現是全新的內容,則將其加入網頁索引中。
去重複算法:
1.http://www1.baidu.com/s?wd=simhash
2. http://www1.baidu.com/s?wd=I-MATCH
3. http://www1.baidu.com/s?wd=SpotSig
A、B、C、 三篇頁面文章是基本一樣的。那麼搜索引擎如何取捨呢?
下面我們來說一下搜索引擎的取捨辦法。
A頁面的推薦度總和爲:100
B頁面的推薦度總和爲:50
C頁面的推薦度總和爲:30
推薦度的意思就是權重。搜索引擎內部叫做推薦度。
我們假設對於相同的頁面搜索引擎的收錄閾值是50推薦度。
C頁面是原創,被A個B兩個頁面轉載了。
那麼會出現一種情況:原創首發的頁面被K了,而轉載的頁面排名很不錯。
所以就算整個網站的文章全部是採集的。只要綜合權重高。那麼收錄也會很不錯。
相同的內容,權重高的頁面會覆蓋權重低的頁面。頁面類聚。類聚掉。