Scrapy網絡爬蟲系列教程(一) | Scrapy爬蟲框架的開發環境搭建

本文主要介紹一下Scrapy爬蟲框架的開發環境搭建。主要有:
Python的安裝,IDE的選擇,MySQL及Navicat的安裝,開發環境Virtualenv、Virtualenvwrapper的搭建以及Scrapy的安裝。

Python的安裝

Python 現在有兩個版本2.X和3.X,雖然說到2020年2.X系列就不再更新維護了,但是Scrapy依賴的庫很多,最大的Twisted庫就是Python2.X寫的,所以用Scrapy框架來寫爬蟲,還是要裝上Python2.X 的。
安裝步驟:去官網:https://www.python.org/downloads/,選擇合適的版本的下載就可以。

這裏寫圖片描述
需要注意的是,在安裝的時候,這一項需要添加上。3.X系列需要在左下角勾選上。

這裏寫圖片描述

安裝完成後,在控制檯輸入python檢驗是否安裝成功。

這裏寫圖片描述

IDE的選擇

Python的集成開發環境有很多,在這裏我們選擇 PyCharm
下載地址:https://www.jetbrains.com/pycharm/download/#section=windows
這個軟件有 專業版(收費)和社區版(免費),根據自己的需求選擇吧。

這裏寫圖片描述

MySQL的安裝

MySQL是一款關係型數據庫管理系統,其特點是體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型網站的開發都選擇 MySQL 作爲網站數據庫。
下載網址:https://dev.mysql.com/downloads/mysql/ 選擇合適的版本進行下載。

這裏寫圖片描述

Navicat for MySQL的安裝

這款軟件收費的,如何破解大家可以自行百度。
鏈接: https://pan.baidu.com/s/1mjPnVhm 密碼: 7na3
安裝後界面:

這裏寫圖片描述

安裝virtualenv

首先講一下爲什麼要安裝虛擬環境。我們的電腦中安裝了Python2和Python3兩個版本,而Virtualenv就是用於在一臺機器上創建多個獨立的Python運行環境。他最大的好處是,可以讓每一個Python項目單獨使用一個環境,而不會影響Python系統環境,也不會影響其他項目的環境。


簡單說:在開發Python應用程序的時候,系統安裝的Python3只有一個版本:3.6。所有第三方的包都會被pip安裝到Python3的site-packages目錄下。如果我們要同時開發多個應用程序,那這些應用程序都會共用一個Python,就是安裝在系統的Python 3。如果應用A需要Python 2.7,而應用B需要Python 3.6怎麼辦?這種情況下,每個應用可能需要各自擁有一套“獨立”的Python運行環境。virtualenv就是用來爲一個應用創建一套“隔離”的Python運行環境。


打開控制檯,輸入pip install virtualenv

這裏寫圖片描述

創建虛擬環境

在控制檯輸入virtualenv ScrapyProjects

這裏寫圖片描述

在目錄文件夾中可以找到該文件夾

這裏寫圖片描述

如何打開?

通過控制檯,打開activate.bat即可。
1. cd ScrapyProjects回車;
2. cd Scripts 回車;
3. activate.bat回車;

這裏寫圖片描述
當前方出現 (ScrapyProjects) 就說明開啓成功。
輸入python查看版本,現在的版本是2.7。

這裏寫圖片描述

如何切換到Python3.X版本呢?

第一步:創建虛擬環境

輸入virtualenv -p C:\Users\Blueheart\AppData\Local\Programs\Python\Python36\python.exe Scrapypy3
- -p指Python版本。
- C:\Users\Blueheart\AppData\Local\Programs\Python\Python36\python.exe指Python3路徑。
- Scrapypy3指新建虛擬環境文件目錄名稱。

這裏寫圖片描述

第二步:切換到Python3.

  1. cd Scrapypy3回車;
  2. cd Scripts 回車;
  3. activate.bat回車;

這裏寫圖片描述

輸入Python,可以看到,Python的版本變成了3.6.

退出,輸入deactivate.bat即可。

這裏寫圖片描述

安裝Virtualenvwrapper

相信大家剛纔也跟着我的步驟走了一遍,有沒有發現啓動環境的時候必須要記住他的絕對路徑纔行,而我們接下來安裝的Virtualenvwrapper就是解決記不住絕對路徑這樣尷尬的事情的。
Virtaulenvwrapper是virtualenv的擴展包,用於更方便管理虛擬環境,它可以將所有虛擬環境整合在一個目錄下,管理(新增,刪除,複製)虛擬環境,快速切換到虛擬環境。

安裝方法:

控制檯輸入:pip install virtualenvwrapper-win

這裏寫圖片描述

新建一個虛擬環境:mkvirtualenv py3scrapy

這裏寫圖片描述

列出虛擬環境列表:workon

這裏寫圖片描述
目錄中的Envs文件夾就是存儲虛擬環境的。

這裏寫圖片描述

如果你和我不喜歡把這些放到C盤,下面我們就來改到別的盤去。

給Envs文件夾改默認路徑、

打開 我的電腦 右鍵 屬性 –> 高級系統設置 –> 環境變量 –> 系統變量 –> 新建 –> 如圖所示 (我把 Envs 文件夾設置到了E盤)

這裏寫圖片描述
新建虛擬環境:

這裏寫圖片描述
查看修改後的文件夾:

這裏寫圖片描述
修改成功。
備註:手動修改Python版本。
mkvirtualenv --python=【C:\Users\Blueheart\AppData\Local\Programs\Python\Python36\python.exe】(Python路徑) py3scrapy(文件名)
附上命令列表:

用法 作用
workon 列出虛擬環境列表
lsvirtualenv 列出虛擬環境列表
mkvirtualenv 新建虛擬環境
workon [虛擬環境名稱] 切換虛擬環境
rmvirtualenv 刪除虛擬環境
deactivate 離開虛擬環境

環境配置的可以了,接下來在Python2下安裝Scrapy框架。
輸入workon py2scrapy–>pip install scrapy

這裏寫圖片描述
等待安裝成功就可以了。
注:
1. 如果在下載過程中速度很慢,可以選擇用國內的鏡像,比如豆瓣鏡像:pip install -i https://pypi.doubanio.com/simple/ scrapy
2. 如果安裝過程中出現錯誤,在下面這個網站上下載相應文件,在本地安裝。
網址:https://www.lfd.uci.edu/%7Egohlke/pythonlibs/

Scrapy安裝完成後,檢驗一下是否安裝成功。

導入 Scrapy 模塊

這裏寫圖片描述

然後,在 shell 中測試能否執行 Scrapy 這條命令。

這裏寫圖片描述
通過了以上兩項測試,就說明 Scrapy 安裝成功了。如圖所示,安裝的最新版本是(1.5.0)。
歡迎關注我的個人公衆號。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章