xpath学习爬取图片

原創

littlespider889

2020-06-04 06:06

大家好，我是天空之城。今天教大家用xpath爬取图片。

import requests,re,lxml
from lxml import etree

class Spider(object):
    def __init__(self):
        self.headers = {
            'Referer': 'https://www.mzitu.com',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; rv:46.0) Gecko/20100101 Firefox/46.0',
            'cookie': 'Hm_lvt_cb7f29be3c304cd3bb0c65a4faa96c30=1589688375; Hm_lpvt_cb7f29be3c304cd3bb0c65a4faa96c30=1589693220'
        }


    def getpage(self):
        for i in range(100):
            url = 'https://www.mzitu.com/page/{}/'.format(str(i))
            res=requests.get(url,headers=self.headers)
            print(res.status_code)
            res1=res.text
            html = etree.HTML(res1)
            self.getdata(html)

    def getdata(self,html):

        titles=html.xpath('//ul[@id="pins"]/li/a/img/@alt')
        links=html.xpath('//ul[@id="pins"]/li/a/img/@data-original')
        for title,link in zip(titles,links):
            pic_name = title + '.jpg'
            res_pic = requests.get(url=link, headers=self.headers)
            try:
                with open(pic_name, 'wb') as f:
                    f.write(res_pic.content)
            except Exception:
                pass
              
spider=Spider()
spider.getpage()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Haskell 实现京东优惠券爬取的详细步骤解析

在當今的電商行業中，優惠券活動是吸引用戶的一種重要方式。京東作爲中國領先的電商平臺之一，其優惠券活動頻繁且多樣，爲用戶提供了豐富的購物體驗。然而，想要及時獲取最新的京東優惠券信息並非易事，尤其是在優惠券數量龐大的情況下。爲了解決這一問題，

2024-04-28 23:27:18

Spring AI 抢先体验，5 分钟玩转 Java AI 应用开发

作者：劉軍 Spring AI 是 Spring 官方社區項目，旨在簡化 Java AI 應用程序開發，讓 Java 開發者像使用 Spring 開發普通應用一樣開發 AI 應用。 Spring Cloud Alibaba AI 以 Spr

2024-04-29 21:12:12

ArkTS开发原生鸿蒙HarmonyOS短视频应用

HarmonyOS實戰課程“2024鴻蒙零基礎快速實戰-仿抖音App開發（ArkTS版）”已經於今日上線至慕課網（https://coding.imooc.com/class/843.html），有致力於鴻蒙生態開發的同學們可以關注一下。

2024-04-29 23:07:45

Java word通过html设置样式（Spire Docx）

Java word通過html設置樣式（Spire Docx） <dependencies>  <dependency>

2024-04-26 23:42:09

使用JavaScript日历小部件和DHTMLX Gantt的应用场景（一）

DHTMLX Suite UI 組件庫允許您更快地構建跨平臺、跨瀏覽器 Web 和移動應用程序。它包括一組豐富的即用式 HTML5 組件，這些組件可以輕鬆組合到單個應用程序界面中。 DHTMLX Gantt是用於跨瀏覽器和跨平臺應用程序的功

2024-04-26 11:35:57

6个实例带你解读TinyVue 组件库跨框架技术

本文分享自華爲雲社區《6個實例帶你解讀TinyVue 組件庫跨框架技術》，作者：華爲雲社區精選。在DTSE Tech Talk 《手把手教你實現mini版TinyVue組件庫》的主題直播中，華爲雲前端開發DTSE技術佈道師阿健老師給

2024-04-26 10:33:20

从零开始学架构V2-架构设计流程-2

一、架構設計流程架構的設計的是爲了降低整體的複雜性，那麼架構設計的第一步就是熟悉業務，識別其中的核心訴求，僅考慮技術的話就是識別複雜度。 1.1 識別複雜度架構的複雜度主要來源於第一節中介紹的“高性能”“高可用”“可擴展”等幾個方面，實

2024-04-25 23:56:26

使用前端技术创建 QR 码生成器 API

前言 QR碼（Quick Response Code）是一種二維碼，於1994年開發。它能快速存儲和識別數據，包含黑白方塊圖案，常用於掃描獲取信息。QR碼具有高容錯性和快速讀取的優點，廣泛應用於廣告、支付、物流等領域。通過掃描QR碼，用戶可

2024-04-25 22:23:53

前端面试题 - 元素的innerText outerText innerHTML的区别？

前端面試題 - 元素的innerText outerText innerHTML的區別？ innerText和outerText取值都是對象起始和結束標籤內部的文本內容。但是在設置的時候，outerText會把該標籤也替換掉。 inner

2024-04-25 11:51:02

前端面试题 - 在HTML5中DOCTYPE的作用是什么？标准与兼容模式（混杂模式）各有什么区别？

前端面試題 - 在HTML5中DOCTYPE的作用是什麼？標準與兼容模式（混雜模式）各有什麼區別？ DOCTYPE（文檔類型聲明）是一種在HTML文檔中使用的標記，用於告訴瀏覽器使用哪個HTML版本解析文檔。它的作用是確保瀏覽器正確地渲染和

2024-04-25 11:51:01

前端面试题 - script 标签中 defer 和 async 的区别？

前端面試題 - script 標籤中 defer 和 async 的區別？ <script> ：會阻礙 HTML 解析，只有下載好並執行完腳本纔會繼續解析 HTML。 <script async> ：解析 HTML 過程中進行腳

2024-04-24 23:51:12

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

1 名工程师轻松管理 20 个工作流，创业企业用 Serverless 让数据处理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

11个Python循环技巧

本文分享自華爲雲社區《Python中的循環技巧指南》，作者：檸檬味擁抱。當我們處理數據時，有時候需要創建多個列表以存儲不同類型或不同條件下的數據。在Python中，我們可以利用循環來快速、高效地創建這些列表。本文將介紹如何使用循環在Pyt

2024-04-28 10:33:08

实践探讨Python如何进行异常处理与日志记录

本文分享自華爲雲社區《Python異常處理與日誌記錄構建穩健可靠的應用》，作者：檸檬味擁抱。異常處理和日誌記錄是編寫可靠且易於維護的軟件應用程序中至關重要的組成部分。Python提供了強大的異常處理機制和靈活的日誌記錄功能，使開發人員能夠

2024-04-25 22:33:43

24小時熱門文章

最新文章

最新評論文章