爬蟲學習——Scrapy框架學習（二）

接上一篇

三、requests庫和Scrapy庫的比較
相同點：
1、兩者都可以進行頁面請求和爬取，python爬蟲的兩個重要技術路線
2、兩者可用性都好，文檔豐富，入門簡單
3、兩者都沒有處理js、提交表單、應對驗證碼等功能（可擴展）
不同點：
requests                      Scrapy
頁面級爬蟲                    網站級爬蟲（批量）
功能庫                        框架
併發性考慮不足，性能較差       併發性好，性能較高
重點在於頁面下載               重點在於爬蟲結構
定製靈活                      一般定製靈活，深度定製困難
上手十分簡單                  入門稍難

選用哪個技術路線：
1、非常小的需求，requests
2、不太小的需求（持續不間斷或週期性，或對爬取的信息要積累的），scrapy
3、定製程度很高的需求（不考慮規模），自搭框架，requests>Scrapy

四、Scrapy爬蟲的常用命令
Scrapy命令行
Scrapy是爲持續運行設計的專業爬蟲框架，提供操作的Scrapy框架
命令行下：scrapy -h

scrapy的很多操作與使用，包括建立爬蟲與運行爬蟲都是通過命令行來實現的

Scrapy命令行格式：
scrapy <command> [options] [args]

Scrapy常用的命令：
命令            |        說明           |         格式
startproject        創建一個新工程        scrapy startproject <name> [dir]
genspider           創建一個爬蟲          scrapy genspider [options] <name> <domain>
settings            獲得爬蟲配置信息      scrapy settings [options]
crawl               運行一個爬蟲          scrapy crawl <spider>
list                列出工程中所有爬蟲    scrapy list
shell               啓動URL調試命令行     scrapy shell [url]

一個工程相當於一個Scrapy，可以有很多爬蟲，一個爬蟲相當於一個Spider模塊

爲什麼採用命令行形式：
更多的是一個後臺框架，命令行（不是圖形界面）更容易自動化，適合腳本控制
本質上，Scrapy是給程序員用的，功能（而不是界面）更重要

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲學習——Scrapy框架學習（二）

創新實訓——010

創新實訓——009

創新實訓——006

創新實訓——013

創新實訓——011

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結