鬥魚是大家常用的直播網站,相信大家也有喜歡的主播,那麼我們今天使用之前提到的xpath方式來將鬥魚的各大主播的房間信息拿到
第一步 ,我們先來分析一下鬥魚,直播分類中的房間信息列表頁接口
覺得今天的MSI不能錯過!!!!!!!!!!
接口
url = 'https://www.douyu.com/directory/all'
我們就準備爬取此界面直播下的房間內容
這裏就不做分頁的處理了只爬取首頁的內容
接下來直接上代碼了
import requests
from lxml import etree
url = 'https://www.douyu.com/directory/all'
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
response = requests.get(url= url ,headers = headers).content.decode('utf-8')
# with open('douyu.html','w',encoding='utf-8') as fp:
# fp.write(response)
# print(response)
# 提取房間名稱
tree = etree.HTML(response)
li_list = tree.xpath('//ul[@class="layout-Cover-list"]/li')
print(len(li_list))
for li in li_list:
# 提取房間名稱
name_list = li.xpath('.//h3[@class="DyListCover-intro"]/text()')
name = name_list[0]
# print(name)
# 標籤
tag_list = li.xpath('.//span[@class="DyListCover-zone"]/text()')
tag = tag_list[0]
# print(tag)
# 主播
zhubo_list = li.xpath('.//h2[@class="DyListCover-user is-template"]/text()')
zhubo = zhubo_list[0]
# print(zhubo)
# 關注度
guanzhu_list = li.xpath('.//span[@class="DyListCover-hot is-template"]/text()')
guanzhu = guanzhu_list[0]
# print(guanzhu)
infor = name+'--'+tag+'--'+zhubo+'--'+guanzhu
print(infor)
希望大家感興趣