[ Python ] 爬蟲類庫學習之 xpath，爬取彼岸圖網的小姐姐圖片

原創

2020-06-23 02:56

安裝：pip install lxml

實例化一個`etree`對象

from lxml import etree

1、將本地的html文檔中的源碼數據加載到etree對象中

etree.parse(filePath)

2、可以將從互聯網上獲取的源碼數據加載到該對象中

page_text = requests.get(url, headers=headers).text

etree.HTML('page_text')

`xpath`表達式

/：表示的是從根節點開始定位，表示的是一個層級。

tree = etree.parse('test.html') # 加載 html 文件

tree.xpath('/html/body/div') # 獲取 body 中的 div

//：表示的是多個層級。可以表示從任意位置開始定位。

tree = etree.parse('test.html')

tree.xpath('/html//div') # 獲取 body 中的 div

tree.xpath('//div') # 獲取 body 中的 div

屬性定位

//tag[@attrName="attrVaLue"]

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]')  # 獲取 body 中 class=“song” 的 div

索引定位

//div[@class=" song"]/p[3]  # 索引是從1開始的。

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]//li[5]/a/text()')

tree.xpath('//li[7]//text()') # 獲取第七個 li 標籤中的所有文本

獲取標籤之間的文本

/text()  # 獲取的是標籤中直系的文本內容
//text()  # 標籤中非直系的文本內容(所有的文本內容)

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]//li[5]/a/text()')

tree.xpath('//li[7]//text()')

獲取屬性

/@attrName

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]/img/@src') # 獲取 img 的 src 屬性

二手房名稱

爬取 58同城北京在售二手房名稱
爬取鏈接：https://bj.58.com/ershoufang/

from lxml import etree
import requests

if __name__ == '__main__':
    url = 'https://bj.58.com/ershoufang/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    page_text = requests.get(url, headers=headers).text

    tree = etree.HTML(page_text)
    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
    fp = open('二手房名稱.text', 'w', encoding='utf-8')
    for li in li_list:
        # 局部解析
        title = li.xpath('./div[2]/h2/a/text()')[0]
        print(title)
        fp.write(title + '\n')

    print('數據爬取結束！')

小姐姐

爬取彼岸圖網的小姐姐圖片
爬取鏈接：http://pic.netbian.com/4kmeinv/

from lxml import etree
import requests
import os

if __name__ == '__main__':
    url = 'http://pic.netbian.com/4kmeinv/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    # 手動設置響應數據的編碼格式
    # response.encoding='utf-8'
    page_text = response.text

    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    if not os.path.exists('./彼岸圖網'):
        os.mkdir('./彼岸圖網')

    for li in li_list:
        img_src = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        # 通用處理中文亂碼的解決方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')
        img_data = requests.get(img_src, headers=headers).content
        img_path = './彼岸圖網/' + img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '爬取成功！')

    print('數據爬取結束！')

城市名

爬取所有城市名
爬取鏈接：https://www.aqistudy.cn/historydata/

from lxml import etree
import requests

if __name__ == '__main__':
    url = 'https://www.aqistudy.cn/historydata/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    page_text = response.text

    tree = etree.HTML(page_text)
    # 解析熱門城市，所有對應城市的 a 標籤
    # //div[@class="bottom"]/ul/li/    熱門城市 a 標籤的層級關係
    # //div[@class="bottom"]/ul/div[2]/li/a   熱門城市 a 標籤的層級關係
    a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')
    all_city_name = []
    for a in a_list:
        city_name = a.xpath('./text()')[0]
        all_city_name.append(city_name)

    print(len(all_city_name), '\n', all_city_name)
    print('數據爬取結束！')

來源：爬蟲開發入門丨老男孩IT教育

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[ Python ] 爬蟲類庫學習之 xpath，爬取彼岸圖網的小姐姐圖片

實例化一個`etree`對象

`xpath`表達式

二手房名稱

小姐姐

城市名

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

[ Java ] 一文搞懂設計模式常用的七大原則

[ Python ] 爬蟲類庫學習之 re 正則解析，爬取糗事百科的糗圖

總結了 150 餘個神奇網站，你不來瞅瞅嗎？

如何用 Java 實現有序，無序線性表的合併倒置

[ Java ] 最通俗易懂的 Java8 新特性 Lambda表達式講解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

[ Python ] 爬蟲類庫學習之 xpath，爬取彼岸圖網的 小姐姐 圖片

實例化一個etree對象

xpath表達式

二手房名稱

小姐姐

城市名

[ Python ] 爬蟲類庫學習之 xpath，爬取彼岸圖網的小姐姐圖片

實例化一個`etree`對象

`xpath`表達式