python爬蟲工程師成長之路十 selenium+phantomjs+request爬取lol所有英雄頭像和裝備圖片

原創

Late whale

2020-03-15 13:16

文章目錄

爬取所有英雄頭像

爬取裝備圖片

爬取所有英雄頭像

選擇爬取目標

這裏我們選擇

https://lol.qq.com/data/info-heros.shtml

英雄聯盟英雄資料

尋找圖片位置

通過瀏覽器的檢查功能，尋找圖片所在位置

觀察發現所有英雄頭像都處於"<img src="">"裏面

所以，構建正則表達式如下

pattern1='<img src="(.+?)">'

是不是覺得騰訊的東西太簡單了？其實，你一爬就會發現根本沒有圖片後面我發現這裏使用的是js動態加載的

經過我反覆琢磨，終於發現資源文件都在//lol.qq.com/biz/hero/champion.js

引入selenium和phantomjs

dr = webdriver.PhantomJS()

用phantomjs 解析js

構造xpath對元素定位

img=dr.find_elements_by_xpath('//ul//li//a//img')

獲取每個英雄的名字和頭像url

觀察發現每個img標籤的src屬性是url，alt屬性是名字

for i in img:
	i.get_attribute('src')
	i.get_attribute('alt')

最終步驟

最終代碼

from selenium import webdriver
import urllib.request
from bs4 import BeautifulSoup
#無頭瀏覽器
dr = webdriver.PhantomJS()
#打開網頁
dr.get('https://lol.qq.com/data/info-heros.shtml')
#xpath定位
img=dr.find_elements_by_xpath('//ul//li//a//img')

try:  
    for i in img:
        name=i.get_attribute('alt')
        url=i.get_attribute('src')
        imgname="D:/picture/"+str(name)+".jpg"
        #保存進本地
        urllib.request.urlretrieve(url,filename=imgname)
except urllib.error.URLError as e:#簡單異常處理
    pass

#退出瀏覽器
dr.quit()

結果展示

至此，148個英雄頭像爬取完畢

爬取裝備圖片

裝備與英雄的大部分都相同，只需簡單幾步即可實現爬取裝備圖片

https://lol.qq.com/data/info-item.shtml

xpath也稍微有點不一樣

dr.find_elements_by_xpath('//div//ul//li//img')

裝備的名稱位於img同級標籤

dr.find_elements_by_xpath('//div//ul//li//p')

圖片和名字是兩個列表

最終代碼

try:  
    j=1 # 因爲之前的xpath匹配出來多一個圖片，這裏從一開始去掉
    for i in name_list:#遍歷name列表
        name=i.text
        url=img_list[j].get_attribute('src')#獲取圖片url
        j=j+1
        imgname="D:/picture/"+str(name)+".jpg"
        print(name+url)
        #保存進本地
        urllib.request.urlretrieve(url,filename=imgname)
except urllib.error.URLError as e:#簡單異常處理
    pass

成功展示
鞋子和打野刀存在命名重複，會被覆蓋一部分

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬蟲工程師成長之路十 selenium+phantomjs+request爬取lol所有英雄頭像和裝備圖片

文章目錄

爬取所有英雄頭像

選擇爬取目標

尋找圖片位置

引入selenium和phantomjs

構造xpath對元素定位

獲取每個英雄的名字和頭像url

最終步驟

爬取裝備圖片

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Android CharSequence和Stirng之間的互相轉換

Android ScrollView 判斷到頂到底，和設置到頂到底

Android Studio連接真機教程(超詳細)

python 學習筆記十八正則表達式

Web學習筆記 CSS(一) CSS 基礎

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python爬蟲工程師 成長之路十 selenium+phantomjs+request爬取lol所有英雄頭像和裝備圖片

文章目錄

爬取所有英雄頭像

選擇爬取目標

尋找圖片位置

引入selenium和phantomjs

構造xpath對元素定位

獲取每個英雄的名字和頭像url

最終步驟

爬取裝備圖片

python爬蟲工程師成長之路十 selenium+phantomjs+request爬取lol所有英雄頭像和裝備圖片