python學習爬蟲（1）--環境搭建Python+requests+BeautifulSoup

原創

2020-06-19 15:11

作者:IT 小樣
爬蟲，spider，通過爬蟲程序可以爬取到網頁你所需要的信息。實現爬蟲程序的方法很多，本系列文主要介紹通過Python3+requests+BeautifulSoup來實現代碼。
本篇簡單介紹一下爬蟲流程以及環境搭建

爬蟲流程

發起請求——>獲取響應數據——>解析數據後獲取
發起請求獲取響應數據，可以通過requests庫來實現，而解析數據可以通過BeautifulSoup庫來實現。這兩個庫使用起來相比其他方法會更簡單便捷。

安裝python

首先下載Python安裝包，建議直接安裝python3，最新版本即可。在安裝時注意勾選添加路徑至系統路徑中，這樣可以直接在命令行運行python命令而不用切換路徑。

安裝requests庫

可以直接pip安裝，pip install requests

安裝BeautifulSoup

pip安裝，pip install bs4
使用BeautifulSoup時，需要from bs4 import BeautifulSoup
此處還需要pip安裝解析器 lxml，pip install lxml
安裝lxml解析器的原因是因爲其比Python自帶的html.parser解析器效率更高,建議安裝。

至此，基本上環境已經搭建完畢。

下一篇：Python學習爬蟲（2）–requests庫

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Python爬蟲】基本原理和框架

開發者工具介紹參考：https://blog.csdn.net/m0_37724356/article/details/79884006 右擊網頁-檢查，或者F12，打開網頁開發者工具 get方式將請求的參數包含在url裏面

2020-07-08 10:40:50

【Python 爬蟲】使用友盟API獲取數據

一、需求每天需要從友盟網站獲取若干應用如下信息二、實現-分解 1）獲取api祕鑰 #獲取api祕鑰 def authorize(user, pasw): url = 'http://api.umeng.com/aut

2020-07-08 10:40:48

【Python 爬蟲】使用新榜API獲取數據

一、需求每日獲取新榜網站收藏的微信公衆號對應的【點贊數、排名、頭條閱讀數】二、實現-分解 1）獲取新榜api 打開並登錄新榜網站-數據服務-數據API 點擊試用即可，到達控制檯，你的賬號就獲得API密鑰，以及2000unit額

2020-07-08 10:40:48

Python爬蟲精簡步驟 HTML基礎（上）

開門見山，HTML的學習可分爲三個層次。讀懂，修改，編寫。讀懂：只有讀懂了HTML，才能看得懂網頁結構，纔有可能運用Python的其他模塊去解析數據和提取數據。想寫爬蟲程序一定要先學好HTML基礎。修改：在讀懂HTML文檔的

2020-07-07 11:50:32

一個簡單的校園網登錄程序 || 爬蟲+tkinter

僅用於登錄中國礦業大學校園網可以自動記錄用戶名和密碼,省去二次填寫的麻煩效果代碼 import tkinter as tk import requests import re import tkinte

2020-07-07 06:57:17

Python爬取快代理

前天，本人在爬取某網站時，第一次遇到IP被封的情況，等了幾個小時之後，還是不行。最後，迫於無奈，還是請出了大招，使用代理IP。今天，閒來無事，本人爬取了快代理網站上 5 萬多條免費高匿名代理IP。首先，我們進入網站免費代理頁面，

2020-07-05 21:50:04

Python爬取有道翻譯

轉載自https://blog.csdn.net/nunchakushuang/article/details/75294947一、正常的爬蟲流程：如果你要爬取他的翻譯接口，這個流程還是不能少的。首先我們打開有道翻譯的鏈接：http://

2020-07-05 19:45:53

http常見狀態碼彙總

1、200：請求正常，返回數據 2、301：永久重定向，例如訪問www.jingdong.com,京東會永久重新定向到www.jd.com，這個是京東公司之前變動的，從jingdong變到jd 3、302：臨時重定向 4、400：請求的U

2020-07-05 12:32:14

partially initialized module 'requests' has no attribute 'get'解決方法

出現“AttributeError: module ‘requests’ has no attribute ‘get’”的錯誤提示解決方法：檢查是不是自己寫的代碼文件命名爲requests.py，修改文件名，即可。

2020-07-05 12:32:14

decode與encode區別

計算機存儲的是bytes，如果需要將bytes轉換爲str時需要decode編碼來實現如果要將str轉換爲bytes時，需要通過encode來實現。 bytes-> decode->str str-> encode->bytes

2020-07-05 12:32:04

ProxyHandler處理器及編碼學習

1、今天學習ProxyHandler，主要用這個來請求代理服務器首先創建一個handler=request.ProxyHandler({"http":"111.20.101.70:80"}) (handler是僞裝本地地址)我通過http

2020-07-05 12:32:04

python selenium爬取百度文庫

參考博客 selenium官方教程注意事項電腦版的網頁源碼中沒有文庫的內容，該方法適用於手機版的百度文庫文檔的內容有多頁時需要點擊繼續閱讀和加載更多按鈕在對這兩個標籤進行定位時，開始參考了這位博主寫的方法，由於文庫的網

2020-07-05 03:45:46

【Python-爬蟲】基礎學習

目錄 1，爬蟲入門, 2，定向採集 3，數據存儲, 4，信息提取 5，Crawler4j 6，網頁排重 7，網頁分類一，urllib 二，數據解析：xpath,bs4,正則表達三，數據存儲：MYSQL,MongDB 四，線程，se

2020-07-04 23:33:37

【爬蟲2019,9月】攜程eleven參數解密

攜程： url='https://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx' 1，經過多次postman,傳入參數：page 爲翻頁的頁數 for page in range(

2020-07-04 23:33:27

在線反混淆網站

https://www.bm8.com.cn/jsConfusion/

2020-07-04 11:12:41

24小時熱門文章

最新文章

最新評論文章