利用python3爬蟲下載圖片、pdf文檔

原創

2020-06-07 18:10

環境
語言環境：python3.6
操作系統：Win10

第三方庫
requests

互聯網上的資源大都是以二進制形式存儲和運輸的，如圖片、pdf、音頻、視頻等，像.dat、.ts等這些不常用的文件也都是二進制。我們知道python3爬蟲是利用爬蟲模擬瀏覽器向服務端發送請求，並解析服務器返回來的響應，像上述這些文件都是以二進制形式返回到本地客戶端的。而response對象的屬性content表示的則是HTTP響應內容的二進制形式，利用該屬性，我們可以通過代碼對網上資源進行下載
下載這些資源最重要的一點就是，你要知道這些文件在哪兒，也就是他們的URL,即他們的連接

下載圖片
鏈接：美女長髮披肩背影美圖

代碼實現

import requests  

url = 'https://img-blog.csdnimg.cn/20181119214250858.png'
r = requests.get(url)
img = r.content       #響應的二進制文件
with open('美女.png','wb') as f:     #二進制寫入
    f.write(img)

下載pdf
下載鏈接：http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf

代碼實現

import requests

url = 'http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf'
r = requests.get(url)
pdf = r.content       #響應的二進制文件
with open('杭電多校第六場.pdf','wb') as f:     #二進制寫入
    f.write(pdf)

效果圖

當然，本篇博文針對的只是文件的下載，當然對於這樣一個兩個文件完全可以手動下載，而且一般情況下資源的URL不一定說能找到就能找到的，但對於處理大批量文件來說通過腳本實現就非常容易了
以下是一個處理大量文件的例子：Python3批量下載.dat和.hea文件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python的while循環

1.while循環的格式 while 條件: 條件滿足時，做的事情1 條件滿足時，做的事情2 條件滿足時，做的事情3 ...(省略)... demo

2023-10-10 11:37:31

python初識第二天

認識現實世界與虛擬世界的橋樑感受python帶來的魔力數據類型 Python裏，最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float) 字符串，字符串英文string，簡寫str 字符串的識別方式非常簡單—

2023-02-01 22:01:30

Python 的十大特性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Rupam Choudhary

2021-12-16 16:04:03

Python開發工程師[金融方向] Remote/Singapore (20k - 45k)

簡單介紹：要做的事：同交易員一起開發交易相關係統；能力要求：能獨立解決問題，完成項目開發，有較強的學習能力（技術和業務）品格正直，較強的心裏承壓能力；職業前景：能提供給你完全不同於互聯網公司的報酬上限，職業途徑；與一流交易員溝通機會，瞭解他

2021-12-09 17:53:05

JavaScript 瀏覽器統治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

懶人暢聽網，有聲小說類目數據採集，多線程速採案例，Python爬蟲120例之23例

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-23 11:18:54

令人不悅的–requests.exceptions.ProxyError

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-19 18:03:59

誰有粉？就爬誰！他粉多，就爬他！Python 多線程採集 260000+ 粉絲數據

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-19 11:53:49

PHP正在“殺死”Python

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-11 15:58:55

2021年Python的好與壞

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"t

2021-11-11 10:53:54

如何使用Python進行超參調參和調優

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Nikola M. Zivkovic

2021-10-29 10:13:57

許式偉：Go+ Together丨Go+ 1.0 發佈會乾貨分享

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-19 18:18:55

這篇 python 文章，是過去你錯過的 python 細節知識點，滾雪球第4季第15篇

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-10-15 16:03:54

1. 滾雪球學Python第四季開啓，一需三喫，Python 函數式編程初識，面向過程，面向對象，函數式

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

梦想橡皮擦

2021-10-14 10:33:53

微信迴應用戶相冊問題；IBM 強制員工打疫苗；Win 11、Android 12正式發佈；Facebook 宕機 6 小時；喬布斯去世十週年；微軟開放第三方商店入駐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-11 09:03:55

24小時熱門文章

lightdb hash index的性能和限制

最新文章

最新評論文章