爬蟲的最大功能之一就是整合數據,能弄到更全面的信息,真正做好大數據的分析,在這個數據說話的年代,影響是決定性的。(注意別侵權)
♦思路流程
1、利用chrome瀏覽器,獲取自己的cookie。
2、獲取你要爬取的用戶的微博User_id
3、將獲得的兩項內容填入到weibo.py中,替換代碼中的YOUR_USER_ID和#YOUR_COOKIE,運行代碼。
♦完整代碼
import requests
import re
import pandas as pd
import time as tm
import random
# ------------------------
id = "2304132803301701"
timedata = []
for p in range(1,3):
page = str(p)
url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page
data = requests.get(url)
data_text = data.text
data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text)
num = len(data_num)
for i in range(0,num):
url_detail = "https://m.weibo.cn/detail/" + data_num[i]
html = requests.get(url_detail)
time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text)
timedata.append(time.group(1))
tm.sleep(random.uniform(1,4)) #反爬間隔
print("採集第%d頁第%d條微博數據"%(p,i))
name =["time"]
data_save = pd.DataFrame(columns=name, data=timedata)
data_save.to_csv('./data.csv')
用wordcloud等軟件生成詞雲,它會根據信息的頻率、權重按比列顯示關鍵字的字體大小。
對於初學者想更輕鬆的學好Python開發,爬蟲技術,Python數據分析,人工智能等技術,這裏也給大家準備了一套系統教學資源,加Python技術學習教程qq裙:855408893,免費領取。學習過程中有疑問,羣裏有專業的老司機免費答疑解惑!點擊加入我們的 python學習圈