Pthon Scrapy框架的安裝與使用

原創

2018-08-31 16:05

網絡爬蟲，是在網上進行數據爬取的程序，使用它能夠抓取特定網頁的html數據，我們可以在一個py文件中引入一個又一個的模塊來進行爬取，但使用框架可以更快速的來幫助我們爬取數據，提高爬取效率。Scrapy是用純Python實現一個爲了爬取網站數據、提取結構性數據而編寫的應用框架，用途非常廣泛。

今天這篇文章就來講講scrapy的安裝與scrapy的一些簡單的語法

一、scrapy安裝：

這裏介紹兩種安裝方法：

1.基於Anaconda的

如果你已經安裝了Anaconda，那麼可以非常簡單的通過在命令提示符中輸入 conda install scrapy 命令快速的安裝Scrapy，

win+r 輸入cmd 然後回車打開命令提示符輸入conda install scrapy

安裝完成之後怎麼驗證Scrapy是否安裝成功呢？在命令提示符中輸入 scrapy 命令如果顯示結果如下圖，那麼就表示Scrapy安裝成功

如果你沒安裝Anaconda，你可以選擇安裝Anaconda或者使用下面的方法

Anaconda下載地址：https://www.anaconda.com/download/

2.安裝Twisted

Tuisted的下載地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

cp36：pycharm3.6，代表的是你使用的pycharm的版本

win32代表的是32位的Windows操作系統

這裏要根據你的情況來選擇安裝，我用的是pycharm3.6版本的

下載完之後 win + r >>cmd >回車打開命令提示符

輸入pip install Twisted-18.7.0-cp36-cp36m-win32.whl，當然install後面的文件名要根據你下載的文件名來寫，

或者你下載完之後直接把文件放在桌面，打開命令提示符輸入pip install，然後把文件拖進去

安裝完成之後再輸入 pip install scrapy即可安裝Scrapy

安裝完成之後輸入 scrapy 命令驗證是否安裝成功，結果同Anaconda

二、Scrapy基本命令

在命令提示符中輸入scrapy後會出現下列命令：

在pychar中先創建一個Scrapy框架文件用來存放後面的項目，在命令提示符中輸入cd 文件路徑 跳轉到Scrapy框架文件下

然後輸入 scrapy startproject 項目名

打開pycharm查看文件，已創建

items.py:項目的目標文件

middlewares.py：項目的中間文件

pipelines.py項目的管道文件

settings.py：項目的設置文件

scrapy.cfg：項目的配置文件

切換到命令提示符

根據提示進行先 cd baidu此時光標在第一個baidu文件夾路徑下，

然後再輸入一個cd baid 跳轉到第二個baidu文件夾下

然後再輸入一個cd spiders，跳轉到spiders文件夾下

然後輸入scrapy genspider baiduSpider baidu.com

如果不跳轉到spiders文件中執行命令也可以，命令會將baiduSpider.py自動創建到spiders文件夾下

scrapy genspider 文件名要爬取的目標域名，這裏的域名以baidu.com爲例。注意：文件名要與項目名不同

至此 Scrapy框架就創建成功了，此時再在命令提示符中輸入scrpay命令可以看到多出了幾條命令

check 檢查，crawl 運行，edit 編譯，list 列出，parse 解析

打開baiduSpider.py輸入下面的代碼，並將網址補全，添上www.

注意：寫完之後我們可以改一下settings.py中的一些代碼，settings.py文件當中的代碼是自動生成的，應該都是一樣的，

將22行的代碼True改爲False ，這個表示是否遵循爬蟲協議，不改的話有些網站不讓我們爬，我這裏選擇的是不遵守

將67到69行的代碼解註釋並將300改爲1，改變項目的優先級，值越小，優先級越高

可以不改，我這兒改只是爲了方便執行

效果如下：

settings.py改之前

settings.py文件改之後：

之後我們來執行一下，在命令提示符中輸入 scrapy crawl baiduSpider 執行成功會出現指定網站的網頁源碼

結果爲：

以上就是scrapy的安裝與一些基本命令。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pthon Scrapy框架的安裝與使用

一、scrapy安裝：

二、Scrapy基本命令

Promise請求

xhr

python之windows中redis數據庫的安裝

Pthon Scrapy框架的安裝與使用

Windows上node.js的安裝與使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結