python爬虫实战项目-爬取壁纸一. 需求二. 解决方案参考:

原創

2022-11-08 17:54

一. 需求

比较喜欢动漫，想从网站下通过爬虫程序，下载一些动漫的壁纸

https://desk.zol.com.cn/bizhi/8366_103760_2.html

二. 解决方案

代码:

from concurrent.futures import ThreadPoolExecutor
import requests
import re
import json

def download(imgsrc):
    """下载图片到本地"""
    name = imgsrc.split("/")[-1]
    print(f"准备开始下载{name}")
    # 1. 发送网络请求
    resp_img = requests.get(imgsrc)
    # 2. 此时拿不到resp.text
    # resp.content -> 拿到文件的字节
    with open(f"img/{name}", mode="wb") as f:
        f.write(resp_img.content)
    print(f"{name}下载完毕")


def main():
    url = "https://desk.zol.com.cn/bizhi/8366_103760_2.html"
    resp = requests.get(url)

    obj = re.compile(r"var deskPicArr.*?=(?P<deskPicArr>.*?);", re.S)

    result = obj.search(resp.text)
    deskPicStr = result.group("deskPicArr") # 从正则.*?提取的内容一定是字符串

    # 把类似字典的字符串变成真的字符串
    deskPic = json.loads(deskPicStr)

    with ThreadPoolExecutor(3) as t:
        for item in deskPic['list']:
            oriSize = item.get("oriSize")
            imgsrc = item.get("imgsrc")
            imgsrc = imgsrc.replace("##SIZE##", oriSize)
            t.submit(download, imgsrc)
    print("all over!")


if __name__ == '__main__':
    main()

测试记录:

参考:

https://www.bilibili.com/video/BV1wa41197X9

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「游记」2024 吉林省赛和 2024 东北四省赛

Before 本文是 \(2024\) 中國大學生程序設計競賽全國邀請賽（長春）暨第 \(17\) 屆吉林省大學生設計競賽和新建比賽的遊記寫的很爛寫的很爛寫的很爛 Day0 省賽報到及熱身賽。 \(14：00\) 前報到。 \(12：

2024-05-18 14:35:35

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

一、前言在使用yolo做人工智能運算後，運算結果除了一個方框，還可能需要增加文字顯示在對應方框上，以便標記是何種物體，比如顯示是人還是動物，或者還有可能追蹤人員，顯示該人員的姓名。這種應用場景非常普遍，而且非常有必要，可以非常直觀的直接看

2024-05-18 14:35:25

WPS技巧——MARK住

一、如何對一列數據進行相同操作，比如全都添加雙引號 https://www.jiachong.com/wps/340708.html 1.首先打開表格,按Ctrl+C複製第一個單元格內容, 2.然後把複製的單元格內容按Ctrl+V粘貼到與其

2024-05-18 14:34:35

LightDB通过金融信创生态实验室测试

　　恆生電子LightDB順利通過了金融信創生態實驗室的產品測試，本次測試基於典型金融業務場景並在國產硬件環境中進行，經過測試，LightDB在產品性能、功能性、兼容性以及可靠性等多個維度100%符合金融業務系統，表現優異。　　在本

2024-05-18 14:32:25

国产数据库金融行业实践者：LightDB通过强制性国家标准GB18030-2022最高级别认证

　　8月1日，強制性國家標準GB 18030-2022《信息技術中文編碼字符集》實施。10月09日，恆生電子LightDB正式通過中國電子技術標準化研究院強制性國家標準GB18030-2022《信息技術中文編碼字符集》最高級（實現級別

2024-05-18 14:32:25

记一次asp.net 8 服务器爆满的解决过程

1.描述一下服務器配置: 一臺2c4g的centos,做api接口反代一臺8c16g的windows 2019 作爲實際服務器,跑了iis,sql server,mongodb,redis 2.業務描述 2.0 服務器分爲兩個站

2024-05-18 14:26:04

一次nginx文件打开数的问题排查处理

現象：nginx域名配置合併之後，發現consul-template無法完成nginx重載，然後發現需要重啓nginx，才能讓配置生效。注意：下次哪個服務有報錯，就看重啓時所有日誌輸出，各種情況日誌輸出。不要忽略細節。很多時候其實已經

2024-05-18 14:17:33

docker 运行minio standalone模式

sudo docker run -it -d --name minio_latest -p 9000:9000 -p 9001:9001 -v /minio/data:/data -e MINIO_ROOT_USER="賬號" -e MIN

2024-05-18 14:15:13

HTML 09 - Quotations

Quotations in HTML allow you to include and format quoted text within your web content. HTML provides tags such as <bl

2024-05-18 14:14:12

HTML 10 - Comments

HTML Comments are used to comment in HTML codes, so the developer can understand the purpose of that code section and it

2024-05-18 14:14:12

Nginx R31 doc 官方文档-01-nginx 如何安装

從 Ubuntu 存儲庫安裝預構建的 Ubuntu 包更新 Ubuntu 存儲庫信息： sudo apt-get update 安裝包： sudo apt-get install nginx 驗證安裝： sudo ngin

2024-05-18 14:01:41

Android 15 的新功能与适配

前臺服務變化前臺服務一直是比較損耗電池壽命的操作，在 Android 15 Beta 2 裏，**dataSync 和 mediaProcessing 的前臺服務類型現在有大約 6 小時的超時時間**，之後系統將調用 Android 15

2024-05-18 14:00:31

高薪线下周末班马上开班，手把手带你提升职业技能

管理學大師彼得·德魯克說“終身學習是現在社會的生存法則”，而現實中，很少有人能清醒地意識到這一點，人們總是習慣在舒適區兜圈，重複做已經掌握的事情，對真正需要突破的職業困境視而不見。偶爾看到同事跳槽漲薪，技術越來越嫺熟，自己也期望着可以跟他

霍格沃茲測試學院

2024-05-18 13:54:11

提升团队生产力：2024年必知的一体化协同办公平台

本文介紹的主流一體化協同辦公平臺有：Worktile、PingCode、Microsoft Teams、釘釘、Google Workspace、Jive、Avaya、Bitrix24、Asana、ClickUp、飛書。在現代工作環

2024-05-18 13:54:00

Mono 支持LoongArch架构

近期，著名的.NET開源社區Mono正式支持LoongArch（龍架構），目前LoongArch64架構已出現在.NET社區主幹分支上。詳細內容可以跟蹤 https://github.com/mono/mono/issues/21381,

2024-05-18 13:53:40

24小時熱門文章

最新文章

最新評論文章