【Python爬蟲】模擬百度搜索並保存網頁源代碼

原創

塔贝

2020-07-04 19:14

該程序爲入門級爬蟲，鞏固urllib庫的基本使用

文章目錄

最後附上程序源代碼

分析步驟

發送一個請求
分析獲取請求的url地址，參數
處理參數併發送請求，獲取響應
把得到的響應保存文件

需求：爬蟲實現百度搜索並保存搜索後的網頁源代碼(第一頁)
環境：Python 3.6
使用的庫：urllib
使用的工具：Chrome，Pycharm

具體實現步驟

首先，導包

導入後續需要使用到的模塊

import urllib.request
import urllib.parse

1.使用百度搜索任意內容

使用百度搜索得到了發送請求的url地址（這裏搜索的是“蘋果”）

url = 'https://www.baidu.com/s?'  # ?後面還有需要添加的參數

2.分析請求的url地址

簡單地分析這個url地址後，獲取需要用到的參數：ie=utf-8，wd=“搜索的內容”

target = input('請輸入需要搜索的內容：')  # 定義一個變量獲取輸入
data = {
    'ie': 'utf-8',  # 這個參數經過測試可有可無，保險起見還是加上
    'wd': target,  # 想要搜索的內容
}

3.處理參數併發送請求

# 對參數進行編碼
data = urllib.parse.urlencode(data)
# 合併url
url = url + data
# 構造請求對象
request = urllib.request.Request(url, headers=headers)
# 發送請求
response = urllib.request.urlopen(request)

4.保存網頁源代碼

# 使用'wb'方式保存
with open('./result.html', 'wb') as fp:
    fp.write(response.read())
    # 如果僅使用'w'方式保存，需要進行解碼處理：
    # fp.write(response.read().decode())

最後附上程序源代碼

import urllib.request
import urllib.parse

# 準備需要發送請求的url
url = 'https://www.baidu.com/s?'
# 準備請求頭
headers = {
    'User-Agent': 'Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser 1.98.744; .NET CLR 3.5.30729)',
}

# 鍵盤讀取需要搜索的內容
target = input('請輸入需要搜索的內容：')
# url上的一些參數
data = {
    'ie': 'utf-8',
    'wd': target,
}
# 對參數進行編碼
data = urllib.parse.urlencode(data)
# 合併url
url = url + data

# 構造請求對象
request = urllib.request.Request(url, headers=headers)

# 發送請求
response = urllib.request.urlopen(request)

# 保存文件
with open('./result.html', 'wb') as fp:
    fp.write(response.read())

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Python爬蟲】模擬百度搜索並保存網頁源代碼

文章目錄

分析步驟

具體實現步驟

首先，導包

1.使用百度搜索任意內容

2.分析請求的url地址

3.處理參數併發送請求

4.保存網頁源代碼

最後附上程序源代碼

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

Hadoop集羣HA(高可用)搭建

Kafka集羣的安裝和部署

Flume的安裝配置和測試

【Hive】SQL語句大全

《Java核心技術第十版·卷1》第三章知識點總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結