利用Python獲取鬥魚彈幕數據。。。
至於數據的用途。。。
至少可以拿來當訓練模型用的語料?
雖然已經有很多現成的數據集了。。。
其他用途就智者見智了。。。
相關文件
關注+轉發然後加羣791052257就可以獲取了
主要思路
根據鬥魚後臺協議發送數據。
主要步驟有:
(1)發送登錄請求,用於完成登錄授權;
(2)獲取彈幕數據;
(3)保持登錄狀態;
(4)轉碼並將數據保存至Excel表中。
爬取的數據有:
用戶ID、暱稱、等級和彈幕內容。
更多:
將彈幕內容製作成詞雲。。。just for fun…
開發工具
Python版本:3.5.4
相關模塊:
requests模塊、BeautifulSoup4模塊、openpyxl模塊、jieba模塊、wordcloud模塊以及一些Python自帶的模塊。
環境搭建
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
使用演示
在cmd窗口運行Get_DY_Barrage.py文件,根據提示輸入房間號和所需的彈幕數量即可。
隨便找個人多的直播間演示下咯~~~
如下圖所示:
結果:
更多
後續有機會會嘗試獲取其他直播平臺的彈幕數據~~~
畢竟不能把雞蛋放到一個籃子裏~~~