讓我們來抓取下鬥魚的直播信息吧！！！

原創

小羽飞

2020-07-04 02:15

鬥魚是大家常用的直播網站，相信大家也有喜歡的主播，那麼我們今天使用之前提到的xpath方式來將鬥魚的各大主播的房間信息拿到

第一步，我們先來分析一下鬥魚，直播分類中的房間信息列表頁接口

覺得今天的MSI不能錯過！！！！！！！！！！

接口

url = 'https://www.douyu.com/directory/all'

我們就準備爬取此界面直播下的房間內容

這裏就不做分頁的處理了只爬取首頁的內容

接下來直接上代碼了

import requests
from lxml import etree
url = 'https://www.douyu.com/directory/all'
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
response = requests.get(url= url ,headers = headers).content.decode('utf-8')
# with open('douyu.html','w',encoding='utf-8') as fp:
#     fp.write(response)
# print(response)




# 提取房間名稱
tree = etree.HTML(response)
li_list = tree.xpath('//ul[@class="layout-Cover-list"]/li')
print(len(li_list))

for li in li_list:
    # 提取房間名稱
    name_list = li.xpath('.//h3[@class="DyListCover-intro"]/text()')
    name = name_list[0]
    # print(name)

    # 標籤
    tag_list = li.xpath('.//span[@class="DyListCover-zone"]/text()')
    tag = tag_list[0]
    # print(tag)

    # 主播
    zhubo_list = li.xpath('.//h2[@class="DyListCover-user is-template"]/text()')
    zhubo = zhubo_list[0]
    # print(zhubo)

    # 關注度
    guanzhu_list = li.xpath('.//span[@class="DyListCover-hot is-template"]/text()')
    guanzhu = guanzhu_list[0]
    # print(guanzhu)

    infor = name+'--'+tag+'--'+zhubo+'--'+guanzhu
    print(infor)

希望大家感興趣

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

讓我們來抓取下鬥魚的直播信息吧！！！

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

sqlalchemy查詢使用

streamlit模塊的簡單使用

讓我們來抓取下鬥魚的直播信息吧！！！

ip代理池的構建

初識scipy

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結