新浪微博大v博客信息抓取與活躍度清博指數BCI分析Python

新浪微博大v博客信息抓取與活躍度清博指數BCI分析Python
1.清博指數BCI介紹
介紹鏈接:http://www.gsdata.cn/site/usage-2
清博指數簡單來說就是衡量用戶的知名度、活躍度,以便廣告商瞭解一個微博賬號是否值得投放廣告
2.新浪微博用戶數據抓取思路分析
首先根據清博指數我們要抓取7個關鍵字段:
發博數X1、原創微博數X2、轉發數X3、評論數X4、原創微博轉發數X5、原創微博評論數X6、點贊數X7。
我一開始試過,直接爬取用戶能訪問到的界面根本爬不出真實數據(新浪微博也是有一定的反爬蟲技術的)
經過無數次的探索後,我終於找到的真正的數據入口:
weibo_url = ‘https://m.weibo.cn/api/container/getIndex?type=uid&value=’ + bozhu_id + ‘&containerid=’ + containerid + ‘&page=’ + str(i)
其中,博主id是圖片中的oid
在這裏插入圖片描述
containerid是每條信息對應的id,要先有博主id,才能爬取信息id
這些都能分析出來後就能對應json數據,之後就是json解析與數量計算了
3.結果展示
在這裏插入圖片描述
4.後記
想要借鑑源碼的評論留言

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章