工具準備
1.1、基礎知識
使用 Python 編寫爬蟲,當然至少得了解 Python 基本的語法,瞭解以下幾點即可:
- 基本數據結構
- 數據類型
- 控制流
- 函數的使用
- 模塊的使用
不需要過多過深的 Python 知識,僅此而已。
1.2、開發環境
• 操作系統:Windows 10
• Python 版本:Python 3.5
• 代碼編輯運行環境:個人推薦 PyCharm 社區版,當然,Python 自帶的 IDLE 也行, Notepad++亦可,只要自己使用得習慣。
1.3、第三方依賴庫
• Requests:一個方便、簡潔、高效且人性化的 HTTP 請求庫
• BeautifulSoup:HTML 解析庫
• Pymongo:MongoDB 的 Python 封裝模塊
• Selenium:一個 Web 自動化測試框架,用於模擬登錄和獲取 JS 動態數據
• Pytesseract:一個 OCR 識別模塊,用於驗證碼識別
• Pillow:Python 圖像處理模塊
1.4、第三方庫安裝:
上面列出的第三方模塊大多可以通過 pip install ××的方式直接安裝,部分模塊安裝方式 不一樣,下面一一演示:
1.4.1、requests
pip install requests
因爲我電腦裏邊同時安裝了 Python2和Python3兩個版本,所以報如下錯誤:
解決辦法:
python3:
python3 -m pip install --upgrade pip
python2:
python2 -m pip install --upgrade pip
注意:python2, python3共存時,將python安裝目錄下的python.exe改成對應的python2.exe,python3.exe
使用以上命令有可能會報錯,是因爲網絡問題,需要翻牆即可解決(下圖所示):
再使用 pip install requests 就可成功安裝
提示requests模塊庫我們已經安裝過了,說明我們已經安裝成功了。
1.4.2、BeautifulSoup
pip install bs4
1.4.3、Pymongo
pip install pymongo
1.4.4、Selenium
pip install selenium
1.4.5、Pillow
1.打開
https://www.lfd.uci.edu/~gohlke/pythonlibs/
2.搜索找到“pillow”
3.根據自己系統的版本選擇對應的下載包 (我根據我的系統和Python版本選了對應的版本,將文件放入Scripts文件夾中)
4.安裝
pip install Pillow-6.2.1-cp35-cp35m-win_amd64.whl
1.4.6、pytesseract
1.安裝 pytesseract
pip install pytesseract
2.安裝 tesseract 下載並安裝:
Tesseract的github地址:https://github.com/tesseract-ocr/tesseract
Tesseract的安裝:
(1)Tesseract本身沒有windows的安裝包,不過它指定了一個第三方的封裝的windows安裝包,在其wiki上有說明,大家可直接到這個地址進行下載: https://digi.bib.uni-mannheim.de/tesseract/
下載後就是一個exe安裝包,直接右擊安裝即可,安裝完成之後,配置一下環境變量,編輯 系統變量裏面 path。
這樣,我們的準備工作就基本完成,如果有另外的需求,在實戰中再進行安裝,接下來就 可以實戰 Python 爬蟲了。