作者:IT 小樣
爬蟲,spider,通過爬蟲程序可以爬取到網頁你所需要的信息。實現爬蟲程序的方法很多,本系列文主要介紹通過Python3+requests+BeautifulSoup來實現代碼。
本篇簡單介紹一下爬蟲流程以及環境搭建
爬蟲流程
發起請求——>獲取響應數據——>解析數據後獲取
發起請求獲取響應數據,可以通過requests庫來實現,而解析數據可以通過BeautifulSoup庫來實現。這兩個庫使用起來相比其他方法會更簡單便捷。
安裝python
首先下載Python安裝包,建議直接安裝python3,最新版本即可。在安裝時注意勾選添加路徑至系統路徑中,這樣可以直接在命令行運行python命令而不用切換路徑。
安裝requests庫
可以直接pip安裝,pip install requests
安裝BeautifulSoup
pip安裝,pip install bs4
使用BeautifulSoup時,需要from bs4 import BeautifulSoup
此處還需要pip安裝解析器 lxml,pip install lxml
安裝lxml解析器的原因是因爲其比Python自帶的html.parser解析器效率更高,建議安裝。
至此,基本上環境已經搭建完畢。