10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

百度雲搜索:http://www.bdyss.com

搜網盤:http://www.swpan.cn

Scrapy框架安裝

1、首先,終端執行命令升級pip: python -m pip install --upgrade pip
2、安裝,wheel(建議網絡安裝) pip install wheel
3、安裝,lxml(建議下載安裝)
4、安裝,Twisted(建議下載安裝)
5、安裝,Scrapy(建議網絡安裝) pip install Scrapy

測試Scrapy是否安裝成功

image

Scrapy框架指令

scrapy -h  查看幫助信息

Available commands:
  bench       Run quick benchmark test (scrapy bench  硬件測試指令,可以測試當前服務器每分鐘最多能爬多少個頁面)
  fetch         Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/  獲取一個網頁html源碼)
  genspider        Generate new spider using pre-defined templates ()
  runspider      Run a self-contained spider (without creating a project) ()
  settings        Get settings values ()
  shell         Interactive scraping console ()
  startproject     Create new project (cd 進入要創建項目的目錄,scrapy startproject 項目名稱 ,創建scrapy項目) 
  version         Print Scrapy version ()
  view           Open URL in browser, as seen by Scrapy ()

創建項目以及項目說明

scrapy startproject adc  創建項目

項目說明

目錄結構如下:

├── firstCrawler

│   ├── __init__.py

│   ├── items.py

│   ├── middlewares.py

│   ├── pipelines.py

│   ├── settings.py

│   └── spiders

│       └── __init__.py

└── scrapy.cfg

  • scrapy.cfg: 項目的配置文件
  • tems.py: 項目中的item文件,用來定義解析對象對應的屬性或字段。
  • pipelines.py: 負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如存取到數據庫) [](http://lib.csdn.net/base/mysql "MySQL知識庫")
  • settings.py: 項目的設置文件.
  • spiders:實現自定義爬蟲的目錄
  • middlewares.py:Spider中間件是在引擎及Spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(items及requests)。 其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能。

image

項目指令

項目指令是需要cd進入項目目錄執行的指令

scrapy -h  項目指令幫助

Available commands:
  bench      Run quick benchmark test
  check      Check spider contracts
  crawl       Run a spider
  edit         Edit spider
  fetch       Fetch a URL using the Scrapy downloader
  genspider    Generate new spider using pre-defined templates
  list        List available spiders
  parse      Parse URL (using its spider) and print the results
  runspider    Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell      Interactive scraping console
  startproject   Create new project
  version       Print Scrapy version (scrapy version  查看scrapy版本信息)
  view      Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/  下載一個網頁並打開)

創建爬蟲文件

創建爬蟲文件是根據scrapy的母版來創建爬蟲文件的

scrapy genspider -l  查看scrapy創建爬蟲文件可用的母版

Available templates:母版說明
  basic        創建基礎爬蟲文件

  crawl        創建自動爬蟲文件
  csvfeed        創建爬取csv數據爬蟲文件

  xmlfeed     創建爬取xml數據爬蟲文件

創建一個基礎母版爬蟲,其他同理

scrapy genspider  -t  母版名稱  爬蟲文件名稱  要爬取的域名 創建一個基礎母版爬蟲,其他同理
如:scrapy genspider  -t  basic  pach  baidu.com

image

scrapy check 爬蟲文件名稱 測試一個爬蟲文件是否合規
如:scrapy check pach

 image

scrapy crawl 爬蟲名稱  執行爬蟲文件,顯示日誌 【重點】

scrapy crawl 爬蟲名稱 --nolog  執行爬蟲文件,不顯示日誌【重點】
【轉載自:http://www.lqkweb.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章