想關注你的愛豆最近在娛樂圈發展的怎麼樣嗎？本文和你一起爬取娛樂圈的排行榜數據，來看看你的愛豆現在排名變化情況，有幾次登頂，幾次進了前十名呀。

一、網站原始信息

我們先來看下原始的網站頁面

如果我們想一個一個複製這些數據，再進行分析，估計要花一天的時間，纔可以把明星的各期排行數據處理好。估計會處理到崩潰，還有可能會因爲人爲原因出錯。

而用爬蟲，半個小時不到就可以處理好這些數據。接下來看看怎麼把這些數據用Python爬下來吧。

二、先來看下爬取後數據的部分截圖

1 男明星人氣榜數據

2 女明星人氣榜數據

三、如何獲取123粉絲網的爬蟲信息

以下是獲取代碼用到信息的具體步驟：

step1：瀏覽器(一般用火狐和Google我用的360)中打開123粉絲網
step2：按鍵盤F12 -> ctrl+r
step3: 點擊results.php -> 到Headers中找到代碼所需的參數

四、分步爬蟲代碼解析

1 用Python中的Requests庫獲取網頁信息

新手學習，Python 教程/工具/方法/解疑＋V：itz992

#爬取當前頁信息，並用BeautifulSoup解析成標準格式
import requests  #導入requests模塊
import bs4

url = "https://123fans.cn/lastresults.php?c=1"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
            'Request Method':'Get'}
req = requests.get(url, timeout=30, headers=headers)
soup = bs4.BeautifulSoup(req.text, "html.parser")

代碼解析：

url = ：待爬取網頁的url鏈接，相當於指定爬取評論的路徑，本文對應填入上文step3中標註的Requests URL值。

headers = ：待爬取網頁的首部信息，把上文step3中標註的Headers中關鍵詞後面的內容對應填入即可。

req =：用get方法獲取待爬網頁的所有信息。

soup：用BeautifulSoup把爬取內容解析成標準格式，方便數據處理。

注1：有些網站訪問時必須帶有瀏覽器等信息，如果不傳入headers就會報錯，所以本例中加入了頭部的一些信息。我試了一下該鏈接不加首部信息也可以正常運行，和加了首部信息得到的結果完全一致。

2 把爬取到的數據整合到一個數據框中

#把爬取的數據整合到數據框中
import re                #正則表達式庫
import numpy as np   
import pandas as pd

period_data = pd.DataFrame(np.zeros((400,5)))  #構造400行5列的全0矩陣備用
period_data.columns = ['name', 'popularity_value', 'period_num', 'end_time','rank']  #給0矩陣列命名
#把當期的數據填入表格中
#姓名信息
i = 0 
name = soup.findAll("td", {"class":"name"})
for each in name:
    period_data['name'][i]=each.a.text  #依次加入姓名
    i += 1
#人氣信息
j = 0
popularity = soup.findAll("td", {"class":"ballot"})
for each in popularity:
    period_data['popularity_value'][j]=float(each.text.replace(",",''))  #依次加入人氣值
    j += 1
#期數信息
period_num = int(re.findall('[0-9]+', str(soup.h2.text))[0])
period_data['period_num'] = period_num
#截止日期
end_time_0 = str(re.findall('結束日期.+[0-9]+', str(soup.findAll("div", {"class":"results"})))).split('.')
end_time = ''
for str_1 in end_time_0:
    end_time = end_time + re.findall('[0-9]+',str_1)[0]
period_data['end_time'] = end_time
#有序數，方便截取前多少位
period_data_1 = period_data.sort_values(by='popularity_value',ascending=False)
period_data_1['rank'] = range(period_data_1.shape[0])

代碼解析：

period_data：構造400行5列的矩陣用來存放每一期排行數據(前幾期排行榜存放了前341位明星的人氣值，我怕往期的會多一點數據，所以取了400行)。

period_data.columns：給數據加一個列名。

name：用findAll函數取出所有的名字信息。

for each in name：用循環把名字信息存放到period_data中。

popularity：用findAll函數取出所有的人氣值信息。

for each in popularity：用循環把人氣信息存放到period_data中。

period_num：獲取期數信息。

end_time：獲取截止日期。

period_data_1['rank']：在最後一列加入有序數,方便數據截取使用。

接下來展示批量爬蟲代碼

五、批量爬蟲代碼解析

1 定義爬蟲函數

import requests  #導入requests模塊
import bs4
import re        #正則表達式庫
import numpy as np   
import pandas as pd
import warnings
import time
import random

warnings.filterwarnings('ignore')  #忽視ignore
#headers的內容在Headers裏面都可以找到
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
            'Request Method':'Get'}
def crawler(url):    
    req = requests.get(url, timeout=30, headers=headers)  # 獲取網頁信息
    soup = bs4.BeautifulSoup(req.text, "html.parser")  #用soup庫解析
    period_data = pd.DataFrame(np.zeros((400,5)))  #構造400行5列的全0矩陣備用
    period_data.columns = ['name', 'popularity_value', 'period_num', 'end_time','rank']  #給0矩陣列命名
    #把當期的數據填入表格中
    #姓名信息
    i = 0 
    name = soup.findAll("td", {"class":"name"})
    for each in name:
        period_data['name'][i]=each.a.text  #依次加入姓名
        i += 1
    #人氣信息
    j = 0
    popularity = soup.findAll("td", {"class":"ballot"})
    for each in popularity:
        period_data['popularity_value'][j]=float(each.text.replace(",",''))  #依次加入人氣值
        j += 1
    #期數信息
    period_num = int(re.findall('[0-9]+', str(soup.h2.text))[0])
    period_data['period_num'] = period_num
    #截止日期
    end_time_0 = str(re.findall('結束日期.+[0-9]+', str(soup.findAll("div", {"class":"results"})))).split('.')
    end_time = ''
    for str_1 in end_time_0:
        end_time = end_time + re.findall('[0-9]+',str_1)[0]
    period_data['end_time'] = end_time
    #有序數，方便截取前多少位
    period_data_1 = period_data.sort_values(by='popularity_value',ascending=False)
    period_data_1['rank'] = range(period_data_1.shape[0])
    return period_data_1

本段代碼是把分段爬蟲代碼整合到一個函數中，方便反覆調用。

2 反覆調用函數實現批量爬蟲

新手學習，Python 教程/工具/方法/解疑＋V：itz992
  period_data_final = pd.DataFrame(np.zeros((1,5)))  #構造400行5列的全0矩陣備用
period_data_final.columns = ['name', 'popularity_value', 'period_num', 'end_time','rank']  #給0矩陣列命名
for qi in range(538,499,-1):
    print("目前爬到了第",qi,'期')
    if qi == 538:
        url="https://123fans.cn/lastresults.php?c=1"
    else:
        url="https://123fans.cn/results.php?qi={}&c=1".format(qi)
    time.sleep(random.uniform(1, 2))
    date = crawler(url)
    period_data_final = period_data_final.append(date)
period_data_final_1 = period_data_fina.loc[1:,:] #去掉第一行無用數據

本段代碼是反覆調用爬蟲函數獲取頁面數據，並用append整合到一個數據框中。

Python教程；一起爬取娛樂圈的排行榜數據

一、網站原始信息

二、先來看下爬取後數據的部分截圖

三、如何獲取123粉絲網的爬蟲信息

四、分步爬蟲代碼解析

五、批量爬蟲代碼解析

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

詳解 MySQL 的 binlog 時間戳與 exec_time 的關係

畫像系統人羣服務數據存儲架構的演進與創新| 京東雲技術團隊

探索大語言模型：理解Self Attention| 京東物流技術團隊

Netgear無線路由器漏洞復現（CVE-2019-20760）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結