巧用robots避免蜘蛛黑洞-百度站長平臺資訊

原創

2020-02-21 13:31

對於百度搜索引擎來說，蜘蛛黑洞特指網站通過極低的成本製造出大量參數過多，及內容雷同但具體參數不同的動態URL ，就像一個無限循環的“黑洞”將spider困住，Baiduspider浪費了大量資源抓取的卻是無效網頁。

　　比如很多網站都有篩選功能，通過篩選功能產生的網頁經常會被搜索引擎大量抓取，而這其中很大一部分檢索價值不高,如“500-1000之間價格的租房”，首先網站（包括現實中）上基本沒有相關資源，其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取，只能是佔用網站寶貴的抓取配額。那麼該如何避免這種情況呢？

　　我們以北京某團購網站爲例，看看該網站是如何利用robots巧妙避免這種蜘蛛黑洞的：

　　對於普通的篩選結果頁，該網站選擇使用靜態鏈接，

　　同樣是條件篩選結果頁，當用戶選擇不同排序條件後，會生成帶有不同參數的動態鏈接，而且即使是同一種排序條件（如：都是按銷量降序排列），生成的參數也都是不同的。

　　對於該團購網來說，只讓搜索引擎抓取篩選結果頁就可以了，而各種帶參數的結果排序頁面則通過robots規則拒絕提供給搜索引擎。

　　robots.txt的文件用法中有這樣一條規則：Disallow: /*?* ，即禁止搜索引擎訪問網站中所有的動態頁面。該網站恰是通過這種方式，對Baiduspider優先展示高質量頁面、屏蔽了低質量頁面，爲Baiduspider提供了更友好的網站結構，避免了黑洞的形成。

c3212254

發佈了0 篇原創文章 · 獲贊 4 · 訪問量 7萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

巧用robots避免蜘蛛黑洞-百度站長平臺資訊

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

友情鏈接交換的方法、標準、原則以及注意事項

百度網站優化排名下降的原因總結

尋找友情鏈接的幾種方法

網站改版工具如何使用

網站站內優化四大技巧

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結