[ Python ] 爬蟲類庫學習之 xpath,爬取彼岸圖網的 小姐姐 圖片

安裝:pip install lxml


實例化一個etree對象

from lxml import etree
  • 1、將本地的html文檔中的源碼數據加載到etree對象中
etree.parse(filePath)
  • 2、可以將從互聯網上獲取的源碼數據加載到該對象中
page_text = requests.get(url, headers=headers).text

etree.HTML('page_text')

xpath表達式

  • /:表示的是從根節點開始定位,表示的是一個層級。
tree = etree.parse('test.html') # 加載 html 文件

tree.xpath('/html/body/div') # 獲取 body 中的 div
  • //:表示的是多個層級。可以表示從任意位置開始定位。
tree = etree.parse('test.html')

tree.xpath('/html//div') # 獲取 body 中的 div

tree.xpath('//div') # 獲取 body 中的 div
  • 屬性定位
//tag[@attrName="attrVaLue"]

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]')  # 獲取 body 中 class=“song” 的 div
  • 索引定位
//div[@class=" song"]/p[3]  # 索引是從1開始的。

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]//li[5]/a/text()')

tree.xpath('//li[7]//text()') # 獲取第七個 li 標籤中的所有文本 
  • 獲取標籤之間的文本
/text()  # 獲取的是標籤中直系的文本內容
//text()  # 標籤中非直系的文本內容(所有的文本內容)

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]//li[5]/a/text()')

tree.xpath('//li[7]//text()')
  • 獲取屬性
/@attrName

tree = etree.parse('test.html')

tree.xpath('//div[@class="song"]/img/@src') # 獲取 img 的 src 屬性

二手房名稱

  • 爬取 58同城 北京在售二手房名稱
  • 爬取鏈接:https://bj.58.com/ershoufang/
from lxml import etree
import requests

if __name__ == '__main__':
    url = 'https://bj.58.com/ershoufang/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    page_text = requests.get(url, headers=headers).text

    tree = etree.HTML(page_text)
    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
    fp = open('二手房名稱.text', 'w', encoding='utf-8')
    for li in li_list:
        # 局部解析
        title = li.xpath('./div[2]/h2/a/text()')[0]
        print(title)
        fp.write(title + '\n')

    print('數據爬取結束!')

小姐姐

  • 爬取 彼岸圖網 的小姐姐圖片
  • 爬取鏈接:http://pic.netbian.com/4kmeinv/
    在這裏插入圖片描述
from lxml import etree
import requests
import os

if __name__ == '__main__':
    url = 'http://pic.netbian.com/4kmeinv/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    # 手動設置響應數據的編碼格式
    # response.encoding='utf-8'
    page_text = response.text

    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    if not os.path.exists('./彼岸圖網'):
        os.mkdir('./彼岸圖網')

    for li in li_list:
        img_src = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        # 通用處理中文亂碼的解決方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')
        img_data = requests.get(img_src, headers=headers).content
        img_path = './彼岸圖網/' + img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '爬取成功!')

    print('數據爬取結束!')

城市名

  • 爬取所有城市名
  • 爬取鏈接:https://www.aqistudy.cn/historydata/
    在這裏插入圖片描述
from lxml import etree
import requests

if __name__ == '__main__':
    url = 'https://www.aqistudy.cn/historydata/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    page_text = response.text

    tree = etree.HTML(page_text)
    # 解析熱門城市,所有對應城市的 a 標籤
    # //div[@class="bottom"]/ul/li/    熱門城市 a 標籤的層級關係
    # //div[@class="bottom"]/ul/div[2]/li/a   熱門城市 a 標籤的層級關係
    a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')
    all_city_name = []
    for a in a_list:
        city_name = a.xpath('./text()')[0]
        all_city_name.append(city_name)

    print(len(all_city_name), '\n', all_city_name)
    print('數據爬取結束!')

來源:爬蟲開發入門丨老男孩IT教育


在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章