scrapy爬蟲初步

原創

2020-02-24 21:52

最近做項目不得不學習爬蟲，主要是爬取網頁並下載鏈接裏的內容，現在記錄一些初步操作。

先附上我主要學習參考的博客：（三篇內容是連續的）

其中用到了Scrapy shell和XPath, 附上一個講的很清楚的網站：

主要步驟如下：

1. scrapy startproject 項目名 # 新建一個爬蟲項目

2. scrapy genspider 爬蟲名域名 # 注意爬蟲名≠項目名；域名不是具體網址

此時可能需要在settings.py中設置USER_AGENT（在網頁中查看：F12 -> 刷新頁面 -> Network -> Name中找到網址(一般是第一個) -> Headers中最下方有user-agent信息）

3. scrapy shell 網址 # 進入命令行模式，開始調試

shell中調試：

response.xpath(' ... ') # 待爬取數據的XPath，可通過右鍵“Copy XPath”得到（可能是full XPath的形式，有時可能需要改）

4. 編寫修改爬蟲名.py、items.py、pipelines.py

5. scrapy crawl 爬蟲名

爬蟲過程中出現的問題及解決：

1. 爬蟲失敗：1⃣️爬蟲名.py文件中“start_urls”沒有修改爲具體的網址；2⃣️幾個文件中的”pass”忘記註釋

2. 數據保存失敗：settings.py文件中沒有配置“pipelines”，把“ITEM_PIPELINES”註釋取消即可

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.