python學習爬蟲(1)--環境搭建Python+requests+BeautifulSoup

作者:IT 小樣
爬蟲,spider,通過爬蟲程序可以爬取到網頁你所需要的信息。實現爬蟲程序的方法很多,本系列文主要介紹通過Python3+requests+BeautifulSoup來實現代碼。
本篇簡單介紹一下爬蟲流程以及環境搭建

爬蟲流程

發起請求——>獲取響應數據——>解析數據後獲取
發起請求獲取響應數據,可以通過requests庫來實現,而解析數據可以通過BeautifulSoup庫來實現。這兩個庫使用起來相比其他方法會更簡單便捷。

安裝python

首先下載Python安裝包,建議直接安裝python3,最新版本即可。在安裝時注意勾選添加路徑至系統路徑中,這樣可以直接在命令行運行python命令而不用切換路徑。

安裝requests庫

可以直接pip安裝,pip install requests

安裝BeautifulSoup

pip安裝,pip install bs4
使用BeautifulSoup時,需要from bs4 import BeautifulSoup
此處還需要pip安裝解析器 lxml,pip install lxml
安裝lxml解析器的原因是因爲其比Python自帶的html.parser解析器效率更高,建議安裝。

至此,基本上環境已經搭建完畢。

下一篇:Python學習爬蟲(2)–requests庫

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章