Python爬蟲教程：爬取微博數據【附源碼】

原創

工程师大胖

2020-05-21 05:55

爬蟲的最大功能之一就是整合數據，能弄到更全面的信息，真正做好大數據的分析，在這個數據說話的年代，影響是決定性的。（注意別侵權）

♦思路流程

1、利用chrome瀏覽器，獲取自己的cookie。

2、獲取你要爬取的用戶的微博User_id

3、將獲得的兩項內容填入到weibo.py中，替換代碼中的YOUR_USER_ID和#YOUR_COOKIE，運行代碼。

♦完整代碼

import requests
import re
import pandas as pd
import time as tm
import random
# ------------------------
id = "2304132803301701"
timedata = []
for p in range(1,3):
    page = str(p)
    url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page
    data = requests.get(url)
    data_text = data.text
    data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text)
    num = len(data_num)
    for i in range(0,num):
        url_detail = "https://m.weibo.cn/detail/" + data_num[i]
        html = requests.get(url_detail)
        time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text)
        timedata.append(time.group(1))
        tm.sleep(random.uniform(1,4)) #反爬間隔
        print("採集第%d頁第%d條微博數據"%(p,i))
name =["time"]
data_save = pd.DataFrame(columns=name, data=timedata)
data_save.to_csv('./data.csv')

用wordcloud等軟件生成詞雲，它會根據信息的頻率、權重按比列顯示關鍵字的字體大小。

對於初學者想更輕鬆的學好Python開發，爬蟲技術，Python數據分析，人工智能等技術,這裏也給大家準備了一套系統教學資源，加Python技術學習教程qq裙：855408893，免費領取。學習過程中有疑問，羣裏有專業的老司機免費答疑解惑!點擊加入我們的 python學習圈

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲教程：爬取微博數據【附源碼】

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

Python 程序報錯崩潰後，如何倒回到崩潰的位置？

Python辦公系列--Python創建Excel工作簿

Python實現監測抖音在線時間，實時記錄一個人全天的在線情況

Python辦公系列--Python操作Excel之安裝openpyxl

Python辦公系列--Python操作Excel 瞭解Excel的結構

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結