Python爬蟲實戰入門——工具準備篇

工具準備 

1.1、基礎知識 
使用 Python 編寫爬蟲,當然至少得了解 Python 基本的語法,瞭解以下幾點即可: 

  • 基本數據結構 
  • 數據類型
  • 控制流
  • 函數的使用
  • 模塊的使用

不需要過多過深的 Python 知識,僅此而已。

1.2、開發環境
• 操作系統:Windows 10

• Python 版本:Python 3.5

• 代碼編輯運行環境:個人推薦 PyCharm 社區版,當然,Python 自帶的 IDLE 也行, Notepad++亦可,只要自己使用得習慣。 


1.3、第三方依賴庫 
• Requests:一個方便、簡潔、高效且人性化的 HTTP 請求庫

• BeautifulSoup:HTML 解析庫

• Pymongo:MongoDB 的 Python 封裝模塊

• Selenium:一個 Web 自動化測試框架,用於模擬登錄和獲取 JS 動態數據

• Pytesseract:一個 OCR 識別模塊,用於驗證碼識別

• Pillow:Python 圖像處理模塊 

1.4、第三方庫安裝: 
上面列出的第三方模塊大多可以通過 pip install ××的方式直接安裝,部分模塊安裝方式 不一樣,下面一一演示:

1.4.1、requests 

pip install requests 

 因爲我電腦裏邊同時安裝了 Python2和Python3兩個版本,所以報如下錯誤:

解決辦法:

python3:

python3 -m pip install --upgrade pip

python2:

python2 -m pip install --upgrade pip

注意:python2, python3共存時,將python安裝目錄下的python.exe改成對應的python2.exe,python3.exe

使用以上命令有可能會報錯,是因爲網絡問題,需要翻牆即可解決(下圖所示):

再使用 pip install requests 就可成功安裝

 

提示requests模塊庫我們已經安裝過了,說明我們已經安裝成功了。

1.4.2、BeautifulSoup 

pip install bs4

 

1.4.3、Pymongo 

pip install pymongo 

 

1.4.4、Selenium 

pip install selenium 

 

1.4.5、Pillow 

1.打開
https://www.lfd.uci.edu/~gohlke/pythonlibs/

2.搜索找到“pillow”

3.根據自己系統的版本選擇對應的下載包 (我根據我的系統和Python版本選了對應的版本,將文件放入Scripts文件夾中)


 
4.安裝 

pip install Pillow-6.2.1-cp35-cp35m-win_amd64.whl 

 

1.4.6、pytesseract 

1.安裝 pytesseract 

pip install pytesseract 

 

2.安裝 tesseract 下載並安裝:

Tesseract的github地址:https://github.com/tesseract-ocr/tesseract

Tesseract的安裝:

(1)Tesseract本身沒有windows的安裝包,不過它指定了一個第三方的封裝的windows安裝包,在其wiki上有說明,大家可直接到這個地址進行下載: https://digi.bib.uni-mannheim.de/tesseract/

下載後就是一個exe安裝包,直接右擊安裝即可,安裝完成之後,配置一下環境變量,編輯 系統變量裏面 path。

這樣,我們的準備工作就基本完成,如果有另外的需求,在實戰中再進行安裝,接下來就 可以實戰 Python 爬蟲了。  

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章