利用python3爬蟲下載圖片、pdf文檔

環境
語言環境:python3.6
操作系統:Win10

第三方庫
requests

互聯網上的資源大都是以二進制形式存儲和運輸的,如圖片、pdf、音頻、視頻等,像.dat、.ts等這些不常用的文件也都是二進制。我們知道python3爬蟲是利用爬蟲模擬瀏覽器向服務端發送請求,並解析服務器返回來的響應,像上述這些文件都是以二進制形式返回到本地客戶端的。而response對象的屬性content表示的則是HTTP響應內容的二進制形式,利用該屬性,我們可以通過代碼對網上資源進行下載
下載這些資源最重要的一點就是,你要知道這些文件在哪兒,也就是他們的URL,即他們的連接

下載圖片
鏈接:美女長髮披肩背影美圖

美女長髮披肩背影

代碼實現

import requests  

url = 'https://img-blog.csdnimg.cn/20181119214250858.png'
r = requests.get(url)
img = r.content       #響應的二進制文件
with open('美女.png','wb') as f:     #二進制寫入
    f.write(img)

下載pdf
下載鏈接:http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf

代碼實現

import requests

url = 'http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf'
r = requests.get(url)
pdf = r.content       #響應的二進制文件
with open('杭電多校第六場.pdf','wb') as f:     #二進制寫入
    f.write(pdf)

效果圖
效果圖

當然,本篇博文針對的只是文件的下載,當然對於這樣一個兩個文件完全可以手動下載,而且一般情況下資源的URL不一定說能找到就能找到的,但對於處理大批量文件來說通過腳本實現就非常容易了
以下是一個處理大量文件的例子:Python3批量下載.dat和.hea文件

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章