小心robots.txt影響蜘蛛的爬行

相信擁有入門SEO常識的站長都知道,在網站根目錄下面寫一個robots.txt文件來阻止蜘蛛爬行那些我們並不想被搜索引擎抓取的網頁,搜索引擎建議站長使用robots文件的初衷是爲了讓站長可以主動的控制那些設計到網站用戶信息的頁面不被抓取,進而導致用戶信息泄露,但實際上站長們能在robots文件上做的事情不僅如此。

比如可以在robots文件中寫上“sitemap: http://www.seoide.com/sitemap.xml”,這樣蜘蛛爬行網站sitemap的機率就會大大增加,因爲蜘蛛訪問任何一個網站,都會先檢查網站是否有robots.txt文件,如果有,就會先讀取robots文件裏面的內容。另一個,很多站長覺得網站上那些動態網頁,JS地址,底部固定信息等URL並不需要被搜索引擎收錄,而且容易分散網頁權重,於是不惜花費很多時間在robots文件中寫了大量的禁止命令來阻止蜘蛛抓取這些“沒用”的網頁。

但是,筆者通過近期的工作經驗來告訴大家,這麼做其實未必值得。

早前筆者負責過一個網站,網頁非常多,但是收錄非常慢,分析日誌的時候,發現蜘蛛爬行的頻率也不低,就是不收錄,相信很多站長也遇到過這樣的情況,一般我們會認爲是蜘蛛爬行了,也抓取了,只不過還沒“放”出來,但是筆者等了一個月,收錄依然不見增長,疑惑之餘對網站各個環節展開了相信的分析,最終發現,罪魁禍首是網站的robots文件。

建站初期,考慮到很多不規則的URL如動態頁面,JS地址,SKIN地址等容易導致蜘蛛優先爬行這類地址,導致爬行其它重要頁面的機率減少(蜘蛛在一個網站的停留時間是有限的),所以網站剛上線就在robots文件中寫了很多Disallow命令,將網站的動態頁面,JS頁面,模板相關的URL都禁止掉了,早期沒覺得有何不妥,網站收錄正常,site結果中也沒有很多“不三不四”的頁面。

但是漸漸的,筆者發現網站收錄停止增長了,實際上我已經向Google提交了多個sitemap,總共10幾萬的網頁,但實際收錄就停在了2千多個不再增長,很是奇怪,按理說我提交了那麼多地址,怎麼着也該收錄幾萬個纔對呀。

遇到問題就要着手分析,筆者分析了好幾個環節發現都不是導致收錄停止增長的原因,最終在一次無意修改robots文件的時候才意識到,極有可能是robots文件的諸多限制導致了收錄增長停止。

這麼想雖然沒有什麼依據,但是隻要稍微推敲一下,就會發現,這並非無稽之談。

首先我們知道蜘蛛必須先爬行網頁纔有可能收錄網頁,那麼蜘蛛在你網站爬行是否順暢就是一個很重要的問題,假設蜘蛛爬行你網站的時候,遇到很多障礙,爬行受阻,那麼很容易想像,這樣的網站對於蜘蛛來說並不友好,蜘蛛爬行不暢了,收錄自然提高不起來,因爲蜘蛛壓根爬行不到很多頁面。

很簡單的一個道理,但是卻容易被忽視。意識到有可能是這個問題之後,筆者着手簡化robots文件,將原來的10幾個命令精簡到4個,只保留了幾個涉及到賬戶信息的禁止命令。

修改後不到一週時間,網站收錄迅速增加。

可能有讀者會說“你把原來不讓收錄的頁面現在開放了,當然收錄增加嘍”,筆者不否認這點,但是自從開放了很多地址之後,蜘蛛爬行順暢了,原來一些沒被禁止卻一直不被收錄的頁面現在也開始被大量收錄了,這就說明蜘蛛爬行順暢之後,爬行這些標準頁面的機會也大大增加了,那麼被收錄的機會也大大提高了。

其實說了這麼多,最核心的SEO知識是:要讓蜘蛛能夠順暢的爬行你的網站,不要讓任何不必要的環節阻礙了蜘蛛的爬行。

原文來自:http://www.seoide.com/careful-robots-impact-spiders-crawling.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章