爬取鬥魚LOL主播人氣數據,並顯示排行榜 [網絡爬蟲] [應用案例][請求頭][模塊]

您的“關注”和“點贊”,是信任,是認可,是支持,是動力…

如意見相佐,可留言。
本人必將竭盡全力試圖做到準確和全面,終其一生進行修改補充更新。

1 爬取鬥魚LOL主播人氣數據的思路

(1)分析網頁結構,url 調度
(2)網頁下載
(3)數據抓取
(4)數據精煉
(5)業務處理
(6)數據存儲(演示爲控制檯展示數據)

2 構建請求頭

2.1 構建請求頭概述(爲什麼要構建請求頭?)

有的網站會有反爬蟲措施,一般就是針對於headers中的User-Agent( User-Agent 頭域的內容包含發出請求的用戶信息。)的內容做一判斷。

如果沒有headers,往往會被認爲是爬蟲腳本,必然會拒絕這樣的網絡請求,甚至封掉ip地址。

所以,就需要將爬蟲僞裝成瀏覽器的正常訪問,來避免一些反爬蟲措施。

本文推薦一個稍微不錯的方法:通過User-Agent構建請求頭headers來僞裝爬蟲,在每次提交網絡請求時,使用構建好的請求頭去迷惑對方。

2.1 構建固定請求頭(單個User-Agent

雖然是一個“笨辦法”,但是也能解決一下燃眉之急。如果時間充足,甚至還可以多找一些User-Agent,再寫個隨機函數,每次用不同的User-Agent,也是可以的。

構建一個User-Agent的步驟,如下所示(演示用的是谷歌瀏覽器):

(1)點開任意的網址(演示用的是www.baidu.com),按下f12鍵,也就是打開開發者工具。如下圖所示:

在這裏插入圖片描述

(2)在上圖中有Network選項,選中之後,按下F5,則會看到Name列表。如下圖所示:

在這裏插入圖片描述

(3)點擊Name列表裏任意的一條內容(演示點擊的是第一條內容),如下所示:
在這裏插入圖片描述
在這裏插入圖片描述

(4)會顯示出很多內容,主要有如下所示:

  • General:指的是通用頭域,或叫做通用首部。包含了請求和響應都支持的頭域,提供了一些與報文相關的最基本的信息
  • Response Headers:響應頭域,或叫響應頭。包含響應報文,當收到get或post等方法發來的請求後,服務器就要對報文進行響應。
  • Request Headers:請求頭域,或叫做請求頭。包含請求報文,HTTP協議使用TCP協議進行傳輸,在應用層協議發起交互之前,首先是TCP的三次握手。完成了TCP三次握手後,用戶會向服務器發出一個請求報文。

演示拿Accept-EncodingUser-Agent即可,如上圖所示。

  • Accept-Encoding:瀏覽器能夠進行解碼的數據編碼方式。
  • User-Agent:瀏覽器類型。告訴HTTP服務器客戶端瀏覽器使用的操作系統和瀏覽器的版本和名稱。

(5)拿到一個User-Agent,保存到字典中備用。

header = {'Accept-Encoding': 'gzip, deflate, br', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}

2.2 構建隨機請求頭(多個User-Agent

第三方fake_useragent庫(假用戶代理庫),對User-Agent提供了很好的支持,就不用辛辛苦苦一個一個去收集User-Agent了。

首先我們要從fake_useragent庫中導入UserAgent,然後通過random就可以拿到隨機的UserAgent

詳細用法請參見 fake_useragent 官網地址

如果安裝過fake_useragent,可用以下命令查看和圖示如下:

pip list

在這裏插入圖片描述

如果沒有安裝,首先下載安裝fake_useragent庫,命令和圖示如下:

pip install fake_useragent

在這裏插入圖片描述

安裝好fake_useragent庫之後,我們就可以使用嘍!如下代碼所示:

from fake_useragent import UserAgent


for i in range(10):
   print(UserAgent().random)  # 用 print() 函數打印生成的 10 個隨機 User-Agent

運行結果:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36
Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36
Mozilla/5.0 (iPad; CPU OS 5_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko ) Version/5.1 Mobile/9B176 Safari/7534.48.3
Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1467.0 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1623.0 Safari/537.36
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36
Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.15 (KHTML, like Gecko) Chrome/24.0.1295.0 Safari/537.15
Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1500.55 Safari/537.36
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/4E423F
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36

可以保存到字典裏備用,隨機請求頭就構建好了,如下代碼所示:

header = {'Accept-Encoding': 'gzip, deflate, br','User-Agent': str(UserAgent().random)}

3 所用到的其他模塊簡介

3.1 requests 模塊

requests可以模擬瀏覽器的請求,比起urllibrequests模塊的api更加便捷。
詳細用法請參見 官方文檔

3.2 re 模塊

re模塊提供了一系列功能強大的正則表達式(regular expression)工具,它們允許你快速檢查給定字符串是否與給定的模式匹配(match函數), 或者包含這個模式(search函數)。正則表達式是以緊湊的語法寫出的字符串模式。
詳細用法請參見 Python 標準庫

3.3 random 模塊

該模塊實現了各種分佈的僞隨機數生成器。
詳細用法請參見 random

4 爬取鬥魚LOL主播人氣數據,並顯示排行榜

代碼如下所示:

from fake_useragent import UserAgent
import requests
import re
import random


class Spider:
    # 目標頁面地址
    url = 'https://www.douyu.com/g_LOL'
    # url = 'https://www.douyu.com/g_DOTA2'

    # 正則表達式
    # root_pattern = r'</div><div class="DyListCover-info">([\s\S]*?)</div>' 用這個root_pattern,在 __analysis()方法中就要用 root_html = re.findall(Spider.root_pattern, htmls)
    root_pattern = '<div class="DyListCover-info">([\d\D]*?)</div>'
    name_pattern = '</use></svg>([\d\D]{0,20}?)</h2>'
    number_pattern = '</use></svg>([\d\D]*?)</span>'

    # 構建隨機請求頭,僞裝成瀏覽器
    header = {'Accept-Encoding': 'gzip, deflate, br', 'User-Agent': str(UserAgent().random)}

    # 抓取 HTML
    def __fetch_content(self):
        htmls = requests.get(Spider.url, headers=Spider.header).text
        return htmls

    # 數據分析
    def __analysis(self, htmls):
        # root_html = re.findall(Spider.root_pattern, htmls)
        root_html = re.findall(Spider.root_pattern, htmls)[1::2]
        anchors = []
        for html in root_html:
            name = re.findall(Spider.name_pattern, html)
            number = re.findall(Spider.number_pattern, html)
            anchor = {'name': name, 'number': number}
            anchors.append(anchor)
        return anchors

    # 精煉數據
    def __refine(self, anchors):
        lamb = lambda anchor: {
            'name': anchor['name'][0].strip(),
            'number': anchor['number'][0].strip()}
        anchors_refine = list(map(lamb, anchors))
        return anchors_refine

    # 業務處理
    def __sort(self, anchors):
        shuffle_list = list(range(len(anchors)))
        random.shuffle(shuffle_list)
        anchors_shuffle = [anchors[i] for i in shuffle_list]
        anchors = sorted(anchors_shuffle, key=self.__sort_seed, reverse=True)
        return anchors

    # 爲 sorted() 函數的 key 參數提供總調用函數
    def __sort_seed(self, anchor):
        r = re.findall('\d*', anchor['number'])
        number = float(r[0])
        if '萬' in anchor['number']:
            number *= 10000
        return number

    # 控制檯展示數據
    def __show(self, anchors):
        for i, anchor in enumerate(anchors):
            # open(str(i)+'.excel')
            print('rank', i + 1, anchor['name'], anchor['number'])

    # 程序入口方法
    def go(self):
        htmls = self.__fetch_content()  # 調用 __fetch_content() 方法獲取 HTML
        anchors = self.__analysis(htmls)
        anchors = self.__refine(anchors)
        anchors = self.__sort(anchors)
        self.__show(anchors)


spider = Spider()  # 創建 Spider 對象
spider.go()  # 調用 Spider 對象中的程序入口方法

運行結果:

rank 1 智勳勳勳勳 329.9萬
rank 2 T1直播faker 256.5萬
rank 3 東北大鵪鶉 242.8萬
rank 4 南波兒大魔王丶 185.9萬
rank 5 英雄聯盟賽事 169.9萬
rank 6 夏天夏天丶丶 147.7萬
rank 7 洞主丨歌神洞庭湖 134.5萬
rank 8 傑克螳螂 124.1萬
rank 92不叫周淑怡 114.9萬
rank 10 王紀超666 107.6萬
rank 11 最強皇童王麗農 87.3萬
rank 12 狐狸醬大魔王 80.6萬
rank 13 她打了個嗝兒 79.1萬
rank 14 梨落秋溪 77.7萬
rank 15 放逐大帝灬 71.9萬
rank 16 叶音符 67.4萬
rank 17 草莓 62.1萬
rank 18 zzc啊哦額 60.3萬
rank 19 餘霜Yscandice 41.3萬
rank 20 石頁的第一根矛s 40.6萬
rank 21 狗康Bfate丶 40.3萬
rank 22 遠古解說YD 39.1萬
rank 23 女戰士丶姝玥 38.7萬
rank 24 辛巴imb丶丶 37.9萬
rank 25 英雄聯盟經典賽事點播 34.9萬
rank 26 暗夜獵手光頭強 30.4萬
rank 27 格局太小OoO 29.1萬
rank 28 魔獸後裔 29.5萬
rank 29 初戀女孩水水 29.7萬
rank 30 PeanutHulllll 29.3萬
rank 31 Mouse光醬 28.3萬
rank 32 小熊和你 25.3萬
rank 33 小老闆丶艾克 24.2萬
rank 34 波比丶Easyboom 23.4萬
rank 35 冰凡 22.7萬
rank 36 捕捉一隻三吃 22.1萬
rank 37 鹹魚光y 22.6萬
rank 38 小微笑LMQ 21.4萬
rank 39 小蝌蚪羊月 21.1萬
rank 40 李冉冉i 20.9萬
rank 41 空大的劫zz 20萬
rank 42 孤兒南 19.8萬
rank 43 一隻蘇l 19.8萬
rank 44 SNSofM 19.7萬
rank 45 SNSwordart 18.4萬
rank 46 祈風1v9 18.5萬
rank 47 檸檬少女吖 17.1萬
rank 48 會旋轉的冬瓜 17.5萬
rank 49 作作金克絲 17.5萬
rank 50 消逝carry 17.3萬
rank 51 一隻小媚媚丶 17.1萬
rank 52 楊驢驢y 16.2萬
rank 53 解說鼓鼓 16.7萬
rank 54 大象ouo 16.4萬
rank 55 刀鋒秀秀AQA 16.9萬
rank 56 熾天使z1丶丶 16.5萬
rank 57 T1直播Cuzz 16.6萬
rank 58 歲月刀妹QAQ 16.2萬
rank 59 解說娃娃 15.4萬
rank 60 懶貓貓QAQ 15.9萬
rank 61 陛哥丶 15.5萬
rank 62 小埃及熱狗OB 15.8萬
rank 63 SNAngelz 15.4萬
rank 64 饅頭超仙女噠 15.3萬
rank 65 蟹老闆丶西內 14.9萬
rank 66 涼風亞索yasuo 14.6萬
rank 67 陸嶼愛吃魚 14.4萬
rank 68 暴風工作室丶 14.7萬
rank 69 電競少女萱某人OB 13.7萬
rank 70 宋暖陽絕不咕咕 13.6萬
rank 71 譚無雙 13.6萬
rank 72 SNWeiwei 13.2萬
rank 73 T1直播Effort 13.2萬
rank 74 饅頭OB解說 12.4萬
rank 75 SNBiubiu 12.1萬
rank 76 解說王多多 12.6萬
rank 77 Dy丶小然 12.3萬
rank 78 青蛙OB王者局丶抽紅包 12.2萬
rank 79 川美人 12.7萬
rank 80 T1直播Roach 12.1萬
rank 81 LCK瓜皮OB飛科 12.1萬
rank 82 柚子ob 12.9萬
rank 83 迷離之道丶 12萬
rank 84 RNG上校OB皇族RYL不放棄 12.9萬
rank 85 王豆荳 12.6萬
rank 86 LDL官方直播間 12.1萬
rank 87 付小翁 11.1萬
rank 88 最初的可可 11.3萬
rank 89 安醬qwq 11.1萬
rank 90 獅獅嗷 11.1萬
rank 91 BiG熱狗OB專屬寶藍阿水 11.6萬
rank 92 米可小甜甜 11.2萬
rank 93 解說奶弟 11.8萬
rank 94 安妮今天五殺了嗎 11.9萬
rank 95 奶媽的安眠藥 10.9萬
rank 96 詩俞 10.5萬
rank 97 Akl託尼老師 10.9萬
rank 98 澤元元元元 10.8萬
rank 99 鮑鮑解說 10.1萬
rank 100 雨神等你萌 10.8萬
rank 101 FPX小鳳凰OB 10.8萬
rank 102 秋月小黑 10.6萬
rank 103 EDG救心丸OB 10.7萬
rank 104 教練JoKer 10.7萬
rank 105 熙子小盆友 10.1萬
rank 106 南方菇涼禾禾 10.4萬
rank 107 T1直播Ellim 10.2萬
rank 108 波波卡特0411 10.2萬
rank 109 i陳一一 9.7萬
rank 110 JY長腿仙兒 9.6萬
rank 111 yomi不是吸血鬼 9.1萬
rank 112 狼神丶歐陽 9.4萬
rank 113 熬夜的au 9.4萬
rank 114 我就是魚魚阿i 9.9萬
rank 115 douyu丶松子 9.5萬
rank 116 天神男槍 9.7萬
rank 117 熙醬鴨ovo 9.3萬
rank 118 小機靈鬼阿婉 9.4萬
rank 119 一小葉子吖 9.4萬
rank 120 SKlaus丶 1.2

5 文章其他地址

5.1 微信公衆號:碼農阿杰

5.2 博客園

6 參考資料

6.1 Python 3.8.2 documentation

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章