xpath學習爬取圖片

原創

littlespider889

2020-06-04 06:06

大家好，我是天空之城。今天教大家用xpath爬取圖片。

import requests,re,lxml
from lxml import etree

class Spider(object):
    def __init__(self):
        self.headers = {
            'Referer': 'https://www.mzitu.com',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; rv:46.0) Gecko/20100101 Firefox/46.0',
            'cookie': 'Hm_lvt_cb7f29be3c304cd3bb0c65a4faa96c30=1589688375; Hm_lpvt_cb7f29be3c304cd3bb0c65a4faa96c30=1589693220'
        }


    def getpage(self):
        for i in range(100):
            url = 'https://www.mzitu.com/page/{}/'.format(str(i))
            res=requests.get(url,headers=self.headers)
            print(res.status_code)
            res1=res.text
            html = etree.HTML(res1)
            self.getdata(html)

    def getdata(self,html):

        titles=html.xpath('//ul[@id="pins"]/li/a/img/@alt')
        links=html.xpath('//ul[@id="pins"]/li/a/img/@data-original')
        for title,link in zip(titles,links):
            pic_name = title + '.jpg'
            res_pic = requests.get(url=link, headers=self.headers)
            try:
                with open(pic_name, 'wb') as f:
                    f.write(res_pic.content)
            except Exception:
                pass
              
spider=Spider()
spider.getpage()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python中兩種網絡編程方式：Socket和HTTP協議

本文分享自華爲雲社區《Python網絡編程實踐從Socket到HTTP協議的探索與實現》，作者：檸檬味擁抱。在當今互聯網時代，網絡編程是程序員不可或缺的一項技能。Python作爲一種高級編程語言，提供了豐富的網絡編程庫，使得開發者能夠輕鬆

2024-04-16 10:33:01

使用urllib和BeautifulSoup解析網頁中的視頻鏈接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

瀏覽器輸入地址訪問網頁過程

瀏覽器輸入地址當在瀏覽器中輸入網址的時候，瀏覽器其實就可能的匹配可能得 url 了，它會從歷史記錄，書籤等地方，找到已經輸入的字符串可能對應的 url，然後給出智能提示，讓你可以補全url地址。對於 google的chrome 的瀏覽

2024-04-16 11:34:39

簡單郵件驗證碼html代碼模板

郵件驗證碼html代碼模板效果圖 H5代碼 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>郵件驗證碼模板</title>

2024-04-15 23:26:38

鴻蒙原生應用再新丁！企查查碧藍航線入局鴻蒙

鴻蒙原生應用再新丁！企查查碧藍航線入局鴻蒙來自 HarmonyOS 微博13日消息，碧藍航線將啓動鴻蒙原生應用開發，雙方將基於HarmonyOS NEXT鴻蒙星河版的原生流暢等特性，進一步提升遊戲流暢度和畫面精美度，爲用戶提供更

2024-04-13 23:06:23

O2OA開發平臺如何查看數據表結構？

在訪問後端api地址，頁面最下方有列示平臺的各個服務，點擊進入可查看具體的表內容後端api地址： http://{hostIP}/x_program_center/jest/list.html 其中：{hostIP}爲中

2024-04-12 22:25:42

RAG應用開發實戰(01)-RAG應用框架和解析器

1 開源解析和拆分文檔第三方的工具去對文件解析拆分，去將我們的文件內容給提取出來，並將我們的文檔內容去拆分成一個小的chunk。常見的PDF word mark down, JSON、HTML。都可以有很好的一些模塊去把這些文件去進行一個

2024-04-12 01:06:38

淺談從瀏覽器輸入URL到頁面渲染的流程

瀏覽器輸入URL到頁面渲染完成，這個過程大致可分爲兩個階段：網絡通信和頁面渲染。一、網絡通信互聯網內各網絡間設備的通信遵循TCP/IP協議，利用TCP/IP協議進行網絡通信時，會通過分層與對方通信。數據傳輸的過程：由應用層產生數據後，

2024-04-10 23:16:43

界面控件DevExtreme JS & ASP.NET Core 2024年度產品規劃預覽（二）

在本文中我們將介紹今年即將發佈的v24.1附帶的主要特性，這些特性既適用於DevExtreme JavaScript (Angular、React、Vue、jQuery)，也適用於基於DevExtreme的ASP.NET MVC/Core控

2024-04-10 11:34:33

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

安裝Anaconda使用TensoFlow

1、下載anaconda 運行安裝 https://www.anaconda.com/download-success 2、anacanda powershell prompt conda create -n itmamba_anaco

2024-04-15 12:49:44

實例講解昇騰 CANN YOLOV8 和 YOLOV9 適配

本文分享自華爲雲社區《昇騰 CANN YOLOV8 和 YOLOV9 適配》，作者：jackwangcumt。 1 概述華爲昇騰 CANN YOLOV8 推理示例 C++樣例 , 是基於Ascend CANN Samples官方示例中的

2024-04-11 22:32:35

直觀易用的大模型開發框架LangChain，你會了沒？

目前LangChain框架在集團大模型接入手冊中的學習案例有限，爲了讓大家可以快速系統地瞭解LangChain大模型框架並開發，產出此文章。本文章包含了LangChain的簡介、基本組件和可跑的代碼案例（包含Embedding、Com

2024-04-11 11:15:54

他說遇到了循環導入，但是我怎麼看我的代碼都沒有循環導入

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Kim】問了一個Python基礎的問題，問題如下：他說遇到了循環導入，但是我怎麼看我的代碼都沒有循環導入。二、實現過程這裏【魏哥】給了一個解答：這個之前搞Py

2024-04-11 09:48:36

Django+Daphne+Supervisor+Nginx web項目部署流程案例內網環境

Django Web項目部署流程大綱環境說明系統環境：Debian10 代碼運行環境：Python3.8 網絡服務器：Daphne（支持wsgi和asgi協議）反向代理：Nginx 進程管理：Supervisor 項目說明

2024-04-10 00:55:10

24小時熱門文章

一個.NET開源的功能豐富、靈活易用的 Windows 窗口增強神器

最新文章

最新評論文章