Pthon Scrapy框架的安裝與使用

網絡爬蟲,是在網上進行數據爬取的程序,使用它能夠抓取特定網頁的html數據,我們可以在一個py文件中引入一個又一個的模塊來進行爬取,但使用框架可以更快速的來幫助我們爬取數據,提高爬取效率。Scrapy是用純Python實現一個爲了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。

今天這篇文章就來講講scrapy的安裝與scrapy的一些簡單的語法

一、scrapy安裝:

這裏介紹兩種安裝方法:

1.基於Anaconda的

如果你已經安裝了Anaconda,那麼可以非常簡單的通過在命令提示符中輸入 conda install scrapy 命令快速的安裝Scrapy,

win+r  輸入cmd 然後回車 打開命令提示符 輸入conda install scrapy

安裝完成之後怎麼驗證Scrapy是否安裝成功呢?在命令提示符中輸入 scrapy 命令如果顯示結果如下圖,那麼就表示Scrapy安裝成功 

如果你沒安裝Anaconda,你可以選擇安裝Anaconda或者使用下面的方法

Anaconda下載地址:https://www.anaconda.com/download/

2.安裝Twisted

Tuisted的下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

cp36:pycharm3.6,代表的是你使用的pycharm的版本

win32代表的是32位的Windows操作系統

這裏要根據你的情況來選擇安裝,我用的是pycharm3.6版本的

下載完之後 win + r >>cmd >回車打開命令提示符

輸入pip install Twisted-18.7.0-cp36-cp36m-win32.whl,當然install後面的文件名要根據你下載的文件名來寫,

或者你下載完之後直接把文件放在桌面,打開命令提示符輸入pip install,然後把文件拖進去

安裝完成之後再輸入 pip install scrapy即可安裝Scrapy

安裝完成之後輸入 scrapy 命令驗證是否安裝成功,結果同Anaconda

二、Scrapy基本命令

在命令提示符中輸入scrapy後會出現下列命令:

在pychar中先創建一個Scrapy框架文件用來存放後面的項目,在命令提示符中輸入cd 文件路徑 跳轉到Scrapy框架文件下

然後輸入 scrapy startproject 項目名

打開pycharm查看文件,已創建

items.py:項目的目標文件

middlewares.py:項目的中間文件

pipelines.py項目的管道文件

settings.py:項目的設置文件

scrapy.cfg:項目的配置文件

切換到命令提示符

根據提示進行先 cd baidu此時光標在第一個baidu文件夾路徑下,

然後再輸入一個cd baid 跳轉到第二個baidu文件夾下

然後再輸入一個cd spiders,跳轉到spiders文件夾下

然後輸入scrapy genspider baiduSpider baidu.com

如果不跳轉到spiders文件中執行命令也可以,命令會將baiduSpider.py自動創建到spiders文件夾下

scrapy genspider  文件名 要爬取的目標域名,這裏的域名以baidu.com爲例。注意:文件名要與項目名不同

至此 Scrapy框架就創建成功了,此時再在命令提示符中輸入scrpay命令可以看到多出了幾條命令

check 檢查,crawl 運行,edit 編譯,list 列出,parse 解析

打開baiduSpider.py輸入下面的代碼,並將網址補全,添上www. 

注意:寫完之後我們可以改一下settings.py中的一些代碼,settings.py文件當中的代碼是自動生成的,應該都是一樣的,

將22行的代碼True改爲False ,這個表示是否遵循爬蟲協議,不改的話有些網站不讓我們爬,我這裏選擇的是不遵守

將67到69行的代碼解註釋並將300改爲1,改變項目的優先級,值越小,優先級越高

可以不改,我這兒改只是爲了方便執行

效果如下:

settings.py改之前

 

 settings.py文件改之後:

之後我們來執行一下,在命令提示符中輸入 scrapy crawl baiduSpider 執行成功會出現指定網站的網頁源碼

結果爲:

 

以上就是scrapy的安裝與一些基本命令。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章