10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

原創

2019-06-27 20:05

【搜網盤:http://www.swpan.cn】

Scrapy框架安裝

1、首先，終端執行命令升級pip: python -m pip install --upgrade pip
2、安裝，wheel(建議網絡安裝) pip install wheel
3、安裝，lxml(建議下載安裝)
4、安裝，Twisted(建議下載安裝)
5、安裝，Scrapy(建議網絡安裝) pip install Scrapy

測試Scrapy是否安裝成功

Scrapy框架指令

scrapy -h 查看幫助信息

Available commands:
　　bench　　　　　　 Run quick benchmark test (scrapy bench  硬件測試指令，可以測試當前服務器每分鐘最多能爬多少個頁面)
　　fetch　　　　　　 Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/  獲取一個網頁html源碼)
　　genspider 　　　   Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　   Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project (cd 進入要創建項目的目錄，scrapy startproject 項目名稱，創建scrapy項目)
　　version 　　　　 Print Scrapy version ()
　　view 　　　　　 Open URL in browser, as seen by Scrapy ()

創建項目以及項目說明

scrapy startproject adc 創建項目

項目說明

目錄結構如下：

├── firstCrawler

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

scrapy.cfg: 項目的配置文件
tems.py: 項目中的item文件，用來定義解析對象對應的屬性或字段。
pipelines.py: 負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到數據庫） [](http://lib.csdn.net/base/mysql "MySQL知識庫")
settings.py: 項目的設置文件.
spiders：實現自定義爬蟲的目錄
middlewares.py：Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

項目指令

項目指令是需要cd進入項目目錄執行的指令

scrapy -h 項目指令幫助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　   Run a spider
　　edit 　　　　    Edit spider
　　fetch　　　　 Fetch a URL using the Scrapy downloader
　　genspider　　 Generate new spider using pre-defined templates
　　list 　　　　　 List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　 Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　 Create new project
　　version　　 Print Scrapy version (scrapy version  查看scrapy版本信息)
　　view　　　　 Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/  下載一個網頁並打開)

創建爬蟲文件

創建爬蟲文件是根據scrapy的母版來創建爬蟲文件的

scrapy genspider -l 查看scrapy創建爬蟲文件可用的母版

Available templates:母版說明
　　basic　　　　創建基礎爬蟲文件

　　crawl　　　　創建自動爬蟲文件
　　csvfeed　　創建爬取csv數據爬蟲文件

　　xmlfeed　　　創建爬取xml數據爬蟲文件

創建一個基礎母版爬蟲，其他同理

scrapy genspider -t 母版名稱爬蟲文件名稱要爬取的域名創建一個基礎母版爬蟲，其他同理
如：scrapy genspider -t basic pach baidu.com

scrapy check 爬蟲文件名稱測試一個爬蟲文件是否合規
如：scrapy check pach

scrapy crawl 爬蟲名稱執行爬蟲文件，顯示日誌【重點】

scrapy crawl 爬蟲名稱 --nolog 執行爬蟲文件，不顯示日誌【重點】
【轉載自：http://www.lqkweb.com】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

【百度雲搜索:http://www.bdyss.com】

【搜網盤:http://www.swpan.cn】

25、Python快速開發分佈式搜索引擎Scrapy精講—Requests請求和Response響應介紹

24、Python快速開發分佈式搜索引擎Scrapy精講—爬蟲和反爬的對抗過程以及策略—scrapy架構源碼分析圖

23、 Python快速開發分佈式搜索引擎Scrapy精講—craw scrapy item loader機制

22、Python快速開發分佈式搜索引擎Scrapy精講—scrapy模擬登陸和知乎倒立文字驗證碼識別

20、 Python快速開發分佈式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環抓取內容

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結