Scrapy初識與創建

Scrapy 是一套基於基於Twisted的異步處理框架,純python實現的爬蟲框架,用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便~

一.安裝

Scrapy框架因爲功能十分強大,所以依賴很多庫,不能直接安裝,需要先安裝依賴庫,因爲我的電腦在Windows下,所以這裏展示Windows下的安裝方法(如果有其他平臺的需要,歡迎給我留言我在發出來)
需要安裝4個依賴庫分別是
1.
lxml(這個最重要),使用pip命令安裝

pip3 install lxml

若沒有報錯,則安裝成功,如果報錯提示缺少libxml2 庫,可以使用wheel文件進行安裝 libxml2
2.
pyOpenSSL
需要在官網下載wheel文件 pyOpenssL
下載後使用

pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl

Twisted
同理,需要在官網下載wheel文件 Twisted,但是有一件事,一定要記得在控制檯下輸入python查看你的電腦版本和python版本,然後在上面的地址中下載對應的wheel文件
然後使用命令安裝

pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl

PyWin32
在官網下載對應版本的安裝包雙擊安裝即可 pywin32
5.
在依賴包全部安裝成功前提下安裝Scrapy框架,使用pip命令

pip3 install Scrapy

二.scrapy框架的簡單使用

使用之前你要清楚這麼一件事,Scrapy框架和你自己編寫的區別,我理解的區別就是沒什麼區別,你編寫的爬蟲也是爲了抓取數據,框架也是爲了抓取數據,唯一有一定不同的就是,不管是我們現在所說的Scrapy框架還是其他的爬蟲框架都是使爬蟲功能模塊話,把各種爬蟲需求分開來,你只要使用你的項目所需要的模塊就夠了!
下面是一些常用命令:

創建項目:scrapy startproject xxx
進入項目:cd xxx #進入某個文件夾下
創建爬蟲:scrapy genspider xxx(爬蟲名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲:scrapy crawl XXX
列出所有爬蟲:scrapy list
獲得配置信息:scrapy settings [options]
那麼我們現在來說說Scrapy框架的基本使用分爲幾部分

當我們使用創建命令

scrapy startproject file_one

創建完項目後項目應該包括下面幾個文件:

scrapy.cfg: 項目的配置文件
file_one/: 該項目的python模塊。在此放入代碼(核心)
file_one/items.py: 項目中的item文件.(這是創建容器的地方,爬取的信息分別放到不同容器裏)
file_one/pipelines.py: 項目中的pipelines文件.
file_one/settings.py: 項目的設置文件.(我用到的設置一下基礎參數,比如加個文件頭,設置一個編碼)
file_one/spiders/: 放置spider代碼的目錄. (放爬蟲的地方)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章