一介紹
Scrapy框架在windows或者是Linux環境下的安裝和使用並沒有太大的差別,相對windows而言,Linux可能更爲方便簡單一些,而且網上的資料也更爲豐富完善。所以筆者在此處,記錄一下windows環境搭建的完整過程,以作爲其他資料的補充。
此處使用的具體環境是,在Vmware中,安裝win7,安裝python3,安裝Scrapy1.5,搭建環境變量,以及Scrapy在Pycharm中的使用
Pycharm僅作爲文本編輯器使用,當然你可以不使用Pycharm,只使用記事本也足夠了,使用Pycharm的目的在於,排除製表符的煩惱,解決自動補全的問題,代碼一目瞭然,降低排錯難度。另外,當你不使用Scrapy框架,創建其他python項目時,Pycharm可以充當完整的IDE。
二Windows7下的python3
記錄VMware中win7和vmtools的安裝並不是本文的意圖,所以筆者默認虛擬機中win7已經是可以正常使用的,然後前往python的官網,下載最新的python版本,截至本文的日期(python3.7),筆者不推薦在使用python2的版本,所以請下載對應你係統的python3。
Windows下的python安裝非常簡單,只需要運行下載的exe文件。
此處筆者選擇默認的安裝路徑,此路徑可以修改,但請務必記住,可以安裝完成之後自行去修改系統變量,也可以直接勾選Add Python3.7 to PATH,我們比較一下安裝前後的環境變量變化。
安裝前:
安裝後:
通過比較可以看出,環境變量已經添加完成。
我們測試一下python和pip。
問題在於,如果你安裝的是較低版本的python3,如python3.6.5,那麼你的pip版本較低,不太方便安裝Scrapy框架,所以建議更新最新的pip,命令如下:
python -m pip install --upgrade pip
可以看到版本發生了變化
三安裝Scrapy框架
Python的環境已經可以使用了,此時,可以安裝Scrapy框架。
其實安裝Scrapy只需要一行命令,直接執行此命令時,一般會拋出一些問題。
執行命令:
Pip install scrapy
拋出如下錯誤:
通過打印出來的信息可以看到,在創建Twisted時出了問題(其實本質錯誤是缺少MVC14.0,如果直接去安裝MVC14.0,會裝上一整個vs,全然沒有必要)。於是我們可以手動去安裝Twisted。
訪問網站:https://www.lfd.uci.edu/~gohlke/pythonlibs/
找到適合你係統環境的安裝包,筆者python3.7(假設你是python3.6.5,那麼就選36),又是32位系統,所以選擇下列包。
把下載的包拷貝到桌面上,執行命令:
打開桌面
cd Desktop
安裝
pip install 包名稱
安裝完成之後,重新執行命令:pip install scrapy
此時出現新的錯誤(這兩個錯誤出現的順序可能會與本文不一樣),安裝lxml出問題。
同理,下載安裝lxml包。
安裝完成之後,再次執行pip install scrapy,一般情況下就可以安裝成功了,有時還存在缺失模塊的錯誤,比如:ModuleNotFoundError: No module named 'win32api'
可以直接pip install pypiwin32,裝上相應模塊即可。
上述幾個錯誤解決之後,一般可以成功裝上Scrapy框架,那麼現在我們可以在命令行使用scrapy命令嗎?你可能會去試一試,比如:scrapy –V。但我建議你仍舊打開環境變量。
將PATH這一行複製出來,粘貼到文本文件可以看到:
C:\Users\AC\AppData\Local\Programs\Python\Python37-32\Scripts\;
C:\Users\AC\AppData\Local\Programs\Python\Python37-32\
分號之前的這個路徑C:\Users\AC\AppData\Local\Programs\Python\Python37-32\Scripts\;
可以去訪問一下下,在該路徑下看到的我們的Scrapy.exe,以及我們執行過的pip命令,可以確定,我們的Scrapy真正的裝到了python3的環境下,而且環境變量已經配置好,我們可以直接在命令行調用。
在終端命令行執行scrapy –V。
到了這一步,實際上Scrapy框架已經完全搭建完成,你可以執行scrapy startproject demo01創建你的第一個項目(項目名爲demo01),然後用記事本去寫py腳本,當然這是在之後的博客中,要詳細記錄的東西。
本文要說的是,直接用記事本可能會影響你的開發效率,眼前有更好的工具。
四Pycharm
關於Pychram的安裝破解,這與本文無關,而且十分簡單,你也可以在網上找到大量的資料。此處只記錄,如何使用Pycharm,輔助開發基於Scrapy框架的爬蟲。
PS:從官網下載的Pycharm安裝完成之後,如果你在啓動時會報出錯誤。此時你需要配置JDK環境,去Oracle官網下載適合你係統的JDK,安裝配置環境變量即可。
在終端執行命令:
cd Desktop
scrapy startproject ScrapyBoKe
- 可以看到桌面上生成了一個名爲ScrapyBoKe的項目文件夾,打開pycharm,新建項目,並且對項目做如下配置:項目路徑指向剛剛創建的文件夾,勾選導入全局包。
- 當創建一個新的py文件時,pycharm提示沒有解釋器
- 單擊File->Settings,需要添加一個新的解釋器
- 新建一個文件位置C:\Users\AC\Environment\,用於存儲虛擬的Python環境,每一個項目可以對應一個虛擬環境,當前項目的虛擬環境在該路徑下的ScrapyBoKe文件夾裏。確定即可。
- 此時在項目視圖中,就有了相應的環境,可以正常使用了