自學Python爬蟲:百度快速下載照片

原創

2023-02-22 11:41

最終實現一個快速下載照片的小程序。並且能實現根據你輸入的關鍵詞自動搜索下載。還可以指定保存目錄。
下面直接上代碼：

import requests
import re
from urllib import parse
import os


class BaiduImageSpider(object):
    def __init__(self):
        self.url = 'https://image.baidu.com/search/flip?tn=baiduimage&word={}'
        self.headers = {'User-Agent': 'Mozilla/4.0'}

    # 獲取圖片
    def get_image(self, url, word):
        # 使用 requests模塊得到響應對象
        res = requests.get(url, headers=self.headers)
        # 更改編碼格式
        res.encoding = "utf-8"
        # 得到html網頁
        html = res.text
        print(html)
        # 正則解析
        pattern = re.compile('"hoverURL":"(.*?)"', re.S)
        img_link_list = pattern.findall(html)
        # 存儲圖片的url鏈接
        print(img_link_list)
        # 創建目錄，用於保存圖片
        directory = 'd:/image/{}/'.format(word)
        # 如果目錄不存在則創建，此方法常用
        if not os.path.exists(directory):
            os.makedirs(directory)

        # 添加計數
        i = 1
        for img_link in img_link_list:
            filename = '{}{}_{}.jpg'.format(directory, word, i)
            self.save_image(img_link, filename)
            i += 1

    # 下載圖片
    def save_image(self, img_link, filename):
        html = requests.get(url=img_link, headers=self.headers).content
        with open(filename, 'wb') as f:
            f.write(html)
        print(filename, '下載成功')

    # 入口函數
    def run(self):
        word = input("請問你想要下載什麼照片？")
        word_parse = parse.quote(word)
        url = self.url.format(word_parse)
        self.get_image(url, word)


if __name__ == '__main__':
    spider = BaiduImageSpider()
    spider.run()

用百度是很方便的，但是百度是一個搜索引擎，所以你要什麼類型的圖片，就需要你輸入關鍵詞，因此程序第一步是提示你輸入關鍵詞，然後纔是按照你輸入的關鍵詞去查找你要的圖片。最後就是保存結果。
________________END______________

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自學Python爬蟲:百度快速下載照片

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

3月21日西湖跑步打卡11.18KM

3月27日西湖跑步打卡11.88KM

專注於你想要的，而不是你擁有的

健康還是要靠自己

3月28日西湖跑步打卡11.58KM

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結