網絡爬蟲（七）

原創

2019-05-14 14:30

網頁解析上比較直觀還是用xpath解析。這種解析方法充分運用html標籤結構，通過樹狀結構，一層層定位到標籤。

下面代碼例子是取出網頁的圖片存在本地，分析網頁結構如下圖:

用tree=etree.HTML(pagetext)語句生成etree對象，

需要注意xpath('表達式')返回的是列表，不要當成string，所以利用索引取得相應的字符串。如: image_src=image.xpath('./@src')[0] , name=image.xpath('./@alt')[0]

需要注意xpath返回列表從1開始計數，不是從0開始。mglist=tree.xpath('//div[@class="article font16"]/p[3]/img')

from lxml import etree
import os
import requests

if __name__=='__main__':

    if not os.path.exists("./images1"):
        os.mkdir("./images1")

    url="http://www.heiguang.com/photography/pandp/20160105/63228.html"
    headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

    pagetext=requests.get(url=url,headers=headers).text#取得整個頁面文本
    tree=etree.HTML(pagetext)

    imglist=tree.xpath('//div[@class="article font16"]/p[3]/img')
    for image in imglist:
        image_src=image.xpath('./@src')[0]
        image_content=requests.get(url=image_src,headers=headers).content
        print(image_src)
        name=image.xpath('./@alt')[0]+image_src.split('/')[-1]
        name=name.encode('iso-8859-1').decode('utf-8')
        image_path="./images1/" + name


        print(image_path)
        with open(image_path,"wb") as fp:
            fp.write(image_content)
    print("end")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python15行代碼實現免費發送手機短信，推送消息

實現的功能：通過代碼定時給手機推送短信，短信內容可以自定義文字，當然你也可以去別的網站爬取每日心靈雞湯，天氣預報或其它信息進行推送。關於爬取數據可以參考：Python40行代碼實現天氣預報和每日雞湯推送本文主要講如何實現發送短

小清华的小哥哥

2020-07-07 23:16:08

解決報錯Process finished with exit code -1073741571 (0xC00000FD),修改棧大小

運行程序時程序意外終止，並返回提示： Process finished with exit code -1073741571 (0xC00000FD) 導致的原因是StackOverflow（棧區溢出）在一般情況下，　不同平臺默

小清华的小哥哥

2020-07-07 23:16:08

Python繪製一箭穿雙心動畫代碼

老規矩，先上運行效果，gif動圖：代碼超簡單，直接調用turtle庫中的各種畫圖函數： # 一箭穿心動畫代碼 import time import turtle # 需安裝turtle庫 turtle.color('bla

小清华的小哥哥

2020-07-07 23:15:57

Jupyter Notebook的初始路徑設置

第一種方法就是直接設置快捷方式的起始位置，找到Jupyter Notebook的快捷方式。直接右鍵Jupyter Notebook的屬性找到起始位置這個選項，修改成你想要的路徑，例如：G：\pythoncode 第二種方法找

2020-07-06 16:32:43

linux查看cpu、內存消耗

linux查看cpu、內存消耗CPU佔用最多的前3個進程：內存消耗最多的前3個進程： CPU佔用最多的前3個進程：按cpu佔用排序 // CPU佔用最多的前3個進程 ps auxw|head -1;ps auxw|sort -r

诗人的情人

2020-07-02 23:18:57

python來進行社團劃分

利用python來進行社團劃分，使用的是社團劃分裏面的GN算法。程序代碼如下 # -*- coding: utf-8 -*- """ Created on Sat Sep 14 18:01:27 2019 @author: A

2020-06-30 02:54:19

python求解接近中心性

求解網絡科學裏面的接近中心性 import matplotlib.pyplot as plt import networkx as nx import operator def get_closeness_centrality(

2020-06-30 02:54:19

python求度分佈的程序

使用python求度分佈的程序 # -*- coding: utf-8 -*- """ Created on Sun Jun 16 20:13:42 2019 @author: Administrator """ """ 這

2020-06-30 02:54:19

python的本地包下載地址

python的本地包下載地址 python本地包下載地址

2020-06-30 02:54:19

使用python來構造有向隨機網絡

使用python來構造有向隨機網絡 # -*- coding: utf-8 -*- """ @author: Administrator """ """ 隨機網絡是由一些節點通過隨機連接而組成的一種複雜網絡。隨機網絡有兩種

2020-06-30 02:54:19

python3實現查詢mysql生成excel並下載

#******************************接口調用部分************************************* def post(self, *args): sql = "select * fr

风儿吹花儿美

2020-06-22 20:33:22

Python exec 內置語句

描述exec 執行儲存在字符串或文件中的 Python 語句，相比於 eval，exec可以執行更復雜的 Python 代碼。語法以下是 exec 的語法:exec(object[, globals[, locals]])參數object

2020-06-22 07:57:13

python in實現

>>> from math import sqrt >>> scope={} >>> exec('sqrt=1',scope) >>> sqrt(9) 3.0 >>> scope['sqrt'] 1 >>>

2020-06-22 07:57:13

python中斷言的用法

assert 語句，在需要確保程序中的某個條件一定爲真才能讓程序運行的話就非常有用>>> age = 10>>> assert 0 < age < 10Traceback (most recent call last): File "<

2020-06-22 07:57:13

快速入門（完整）：Python實例100個（基於最新Python3.7版本）+ 源代碼

前言雪花兒要學Python，於是魚丸兒根據另一個CSDN老哥整理的完整版Python經典入門100例，加上了自己之前學習時的源代碼，整理了一下，也方便日後同學們的代碼取用。原文地址：快速入門（完整）：Python實例100個（

Python开发者_Ainley

2020-06-22 05:06:22

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章