爬蟲學習——Scrapy框架學習(二)

接上一篇

三、requests庫和Scrapy庫的比較
相同點:
1、兩者都可以進行頁面請求和爬取,python爬蟲的兩個重要技術路線
2、兩者可用性都好,文檔豐富,入門簡單
3、兩者都沒有處理js、提交表單、應對驗證碼等功能(可擴展)
不同點:
requests                      Scrapy
頁面級爬蟲                    網站級爬蟲(批量)
功能庫                        框架
併發性考慮不足,性能較差       併發性好,性能較高
重點在於頁面下載               重點在於爬蟲結構
定製靈活                      一般定製靈活,深度定製困難
上手十分簡單                  入門稍難

選用哪個技術路線:
1、非常小的需求,requests
2、不太小的需求(持續不間斷或週期性,或對爬取的信息要積累的),scrapy
3、定製程度很高的需求(不考慮規模),自搭框架,requests>Scrapy

四、Scrapy爬蟲的常用命令
Scrapy命令行
Scrapy是爲持續運行設計的專業爬蟲框架,提供操作的Scrapy框架
命令行下:scrapy -h

 

scrapy的很多操作與使用,包括建立爬蟲與運行爬蟲都是通過命令行來實現的

Scrapy命令行格式:
scrapy <command> [options] [args]

Scrapy常用的命令:
命令            |        說明           |         格式
startproject        創建一個新工程        scrapy startproject <name> [dir]
genspider           創建一個爬蟲          scrapy genspider [options] <name> <domain>
settings            獲得爬蟲配置信息      scrapy settings [options]
crawl               運行一個爬蟲          scrapy crawl <spider>
list                列出工程中所有爬蟲    scrapy list
shell               啓動URL調試命令行     scrapy shell [url]

一個工程相當於一個Scrapy,可以有很多爬蟲,一個爬蟲相當於一個Spider模塊

爲什麼採用命令行形式:
更多的是一個後臺框架,命令行(不是圖形界面)更容易自動化,適合腳本控制
本質上,Scrapy是給程序員用的,功能(而不是界面)更重要
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章