百度指數是以百度海量網民行爲數據爲基礎的數據分享平臺。在這裏,你可以研究關鍵詞搜索趨勢、洞察網民興趣和需求、監測輿情動向、定位受衆特徵。
歷來百度指數的採集是爬蟲界的夢魘,衆多程序員也爲採集百度指數絞盡腦汁,本人也經歷了各個階段。這裏說說自己的實現經歷:
(1)模擬曲線似合。
模擬曲線擬合是我實現的第一個版本。從上圖可以看見,指定曲線有特定的顏色,因爲可以用python的圖片處理庫在圖表截中搜索特定的點。同時結合最右典的刻度尺,就能夠大概推算出當天的指數值。
這種方式有如下缺陷:
a - 指數在坡度變化大的地方推算出來的值誤差較大。
b - 需要處理的細節很多。如在A\B\C\D\E\F等拐點處,這幾個點的顏色與線條的顏色完全一樣,因此需要做特殊處理。
c - 找點顏色算法的效率。我當初採用的方案是從上到下、從右到右。先找到最左右的第一個點,然後在附近查詢。因爲點是連續的。一般情況下一定能找到一個就近點。若因圖片或其它干擾因素沒有找到怎麼處理呢? 那麼就先找下一個點,然後推算出當前缺失的點。
流程一般是: 截圖 -> 截取刻度尺-> 找點 -> 估值。
(2)圖片文字識別
這種採集效率太低,而且準確率不高。
* 間隔時間1天誤差: 0.1%
* 間隔時間10天誤差: 0.2% 建議採用該間隔!
* 間隔時間30天誤差:1%
(3)最近研究出來的新方法 (採集100%精準,而且採集速度很快。一個詞只需要幾秒鐘)
由於工具包太大,這裏不下載工具包。需要的朋友可自行下載:www.vdocbook.com/ QQ: 494856288
最近研究出最新的百度指數採集方案。可實時採集百度趨勢指數(包括整體指數、PC指數、移動指數),媒體指數、需求圖譜、資訊關注、人羣畫像。
支持天模式、周模式、月模式、年模式。輸出爲csv格式。
效果如下所示: