Robot.txt和Sitemap

                         Robot.txt和Sitemap介紹

一、Robot.txt介紹

1、什麼是robots.txt

     搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容。

    robots.txt是網站管理者寫給爬蟲的一封信,裏面描述了網站管理者不希望爬蟲做的事,比如:

    1)不要訪問某個文件、文件夾
    2)禁止某些爬蟲的訪問
    3)限制爬蟲訪問網站的頻率

    很多網站中都會設置robots.txt文件,用來規範、約束或者是禁止爬蟲對於網站中數據的採集等操作。 一個自覺且善意的爬蟲,應該在抓取網頁之前,先閱讀robots.txt,瞭解並執行網站管理者制定的爬蟲規則。

2、如何查看robot.txt

    在瀏覽器的網址搜索欄中,輸入網站的根域名,然後再輸入/robot.txt。比如,必應的robots.txt網址爲https://cn.bing.com/robots.txt。   

    robots.txt的內容:

User-agent: 爬蟲的名稱

Disallow: 不允許爬蟲訪問的地址

Allow: 允許爬蟲訪問的地址

若User-agent是*,則表示對象是所有爬蟲。

Disallow和Allow後面跟的是地址,地址的描述格式符合正則表達式(regex)的規則。因此可以在python中使用正則表達式來篩選出可以訪問的地址。

    例如,網易新聞robots.txt

User-agent: ToutiaoSpider  
Disallow: /

    表示禁止頭條搜索引擎的訪問。

二、Sitemap介紹

    Sitemap提交和更新在網站優化中是一個重要的環節, 但很多人並不知道Sitemap是什麼. 那到底Sitemap是什麼?

    Sitemap又稱網站地圖,從網站優化(SEO)的角度分析,一個網站一定要有網站地圖(sitemap.xml),這樣對搜索引擎,訪客都很有好處。

    網站地圖又稱站點地圖,它就是一個頁面,上面放置了網站上所有頁面的鏈接。大多數人在網站上找不到自己所需要的信息時,可能會將網站地圖作爲一種補救措施。搜索引擎蜘蛛非常喜歡網站地圖(sitemap.xml)。

    爲什麼要建立網站地圖呢?大多數人都知道網站地圖對於提高用戶體驗和網站優化有好處:它們爲網站訪問者指明方向,並幫助迷失的訪問者找到他們想看的頁面。對於SEO,網站地圖(sitemap.xml)的好處就更多了:

    1.Sitemap爲搜索引擎蜘蛛提供可以瀏覽整個網站的鏈接。

    2.Sitemap爲搜索引擎蜘蛛提供一些鏈接,指向動態頁面或者採用其他方法比較難以到達的頁面。

    3.Sitemap作爲一種潛在的着陸頁面,可以爲搜索流量進行優化。

    4.如果訪問者試圖訪問網站所在域內並不存在的URL,那麼這個訪問者就會被轉到“無法找到文件”的錯誤頁面,而網站地圖可以作爲該頁面的“準”內容。

    現在大家應該已經知道sitemap是什麼, 它是網站優化(SEO)中的一個重要組成部分, 但是sitemap並不是提交後就一勞永逸了, 它還需要不斷的更新, 除非你網站的內容恆久不變, 但作爲一個重視網站優化的站點這是不可能的. 所以我們還需要不停的定期的更新sitemap。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章