scrapy框架下使用SitemapSpider爬取織夢園模板網的網站地圖

Sitemap 可方便網站管理員通知搜索引擎他們網站上有哪些可供抓取的網頁。最簡單的 Sitemap 形式,就是XML 文件,在其中列出網站中的網址以及關於每個網址的其他元數據(上次更新的時間、更改的頻率以及相對於網站上其他網址的重要程度爲何等),以便搜索引擎可以更加智能地抓取網站。

Google、微軟都支持一個被稱爲xml網站地圖(xml Sitemaps)的協議,而百度Sitemap是指百度支持的收錄標準,在原有協議上做出了擴展。百度Sitemap分爲三種格式:txt文本格式、xml格式、Sitemap索引格式。

sitemap.xml的作用是給搜索引擎看的,因爲當蜘蛛很難爬行我們更深層次的內容的時候,只要有這個就能讓蜘蛛按照順序進行爬取了;而sitemap.htm是給用戶看的,當我們網站過於複雜的時候,用戶進來想找到自己想要的內容的時候比較複雜的時候就需要用到這個,不過就目前來看,很多站長還分不清呢,更別說用戶了。

在此選擇織夢園模板網進行試驗,url是http://www.seomj.com/sitemap.xml,打開後看到的頁面如下:

源代碼如下:

我們需要抓取的是百度排名優化下面的文章,包括標題、作

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章