百度指數的爬蟲方法及代碼

原創

王大鱼

2020-06-11 06:32

最近幾年經常在各平臺看到有關「搜索指數動態排行」的視頻，比如「青春有你2」決賽前一週，我在B站上傳了一段「青你2」和「創造營2020」的人氣選手指數動態榜的視頻，後臺看到的視頻播放量、彈幕數、評論數等數據如下：

居然被播放了近 4w 次，評論裏有問視頻怎麼做的，也有質疑數據來源的，這篇文章先講一下數據是怎麼來的。

全部數據都來自百度搜索指數，就是這個玩意兒：

網上關於百度指數的爬取方案有很多種，測試下來最方便快捷的是通過 Cookies 登錄後爬取，這個場景不太適合用模擬瀏覽器的方式。基於開源代碼（https://github.com/longxiaofei/spider-BaiduIndex）進行了一些 DIY，就滿足我的需求了。

（原開源代碼可能由於久未更新，局部存在一些問題，已做處理）

在查找爬蟲方法過程中，大家提到次數最多的問題就是如何找到自己的 Cookies。登錄百度後，在首頁右鍵打開「開發者工具」，然後點擊「Application」：

然後在 Name 那一列找「BDUSS」，複製後面對應的 Value，很長的一串字符~

把這段字符串賦值給 demo.py 中的變量 cookies，別忘了前面加 "BDUSS="，然後就可以實現自動登錄了。接下來就可以在 keywords 填寫你要爬的關鍵詞列表了，設置要爬取指數的起始時間 start_date 和結束時間 end_date，如下：

cookies = "BDUSS=你的Cookies"keywords = ['劉雨昕', '虞書欣', '喻言', '許佳琪', '孔雪兒', '趙小棠', '金子涵', '安崎', '謝可寅', '乃萬']baidu_index = BaiduIndex(    keywords=keywords,    start_date='2020-03-10',    end_date='2020-05-27',    cookies=cookies,    )

按你的需求修改好各個變量後，運行 demo.py，然後你就可以獲得像這樣的數據了：

關注公衆號「數據池塘」，回覆「百度指數」，獲取完整代碼下載鏈接 👌

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

百度指數的爬蟲方法及代碼

異常檢測算法分類及經典模型概覽

用 Python 寫一個 Kaggle 比賽排行榜的爬蟲

盤一盤2020年上半年的微博熱搜詞條

百度指數的爬蟲方法及代碼

Flask+Axios+jQuery構建前後端通信的小例子

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結