接上一篇
三、requests庫和Scrapy庫的比較 相同點: 1、兩者都可以進行頁面請求和爬取,python爬蟲的兩個重要技術路線 2、兩者可用性都好,文檔豐富,入門簡單 3、兩者都沒有處理js、提交表單、應對驗證碼等功能(可擴展) 不同點: requests Scrapy 頁面級爬蟲 網站級爬蟲(批量) 功能庫 框架 併發性考慮不足,性能較差 併發性好,性能較高 重點在於頁面下載 重點在於爬蟲結構 定製靈活 一般定製靈活,深度定製困難 上手十分簡單 入門稍難 選用哪個技術路線: 1、非常小的需求,requests 2、不太小的需求(持續不間斷或週期性,或對爬取的信息要積累的),scrapy 3、定製程度很高的需求(不考慮規模),自搭框架,requests>Scrapy 四、Scrapy爬蟲的常用命令 Scrapy命令行 Scrapy是爲持續運行設計的專業爬蟲框架,提供操作的Scrapy框架 命令行下:scrapy -h
scrapy的很多操作與使用,包括建立爬蟲與運行爬蟲都是通過命令行來實現的 Scrapy命令行格式: scrapy <command> [options] [args] Scrapy常用的命令: 命令 | 說明 | 格式 startproject 創建一個新工程 scrapy startproject <name> [dir] genspider 創建一個爬蟲 scrapy genspider [options] <name> <domain> settings 獲得爬蟲配置信息 scrapy settings [options] crawl 運行一個爬蟲 scrapy crawl <spider> list 列出工程中所有爬蟲 scrapy list shell 啓動URL調試命令行 scrapy shell [url] 一個工程相當於一個Scrapy,可以有很多爬蟲,一個爬蟲相當於一個Spider模塊 爲什麼採用命令行形式: 更多的是一個後臺框架,命令行(不是圖形界面)更容易自動化,適合腳本控制 本質上,Scrapy是給程序員用的,功能(而不是界面)更重要