2018百度指數採集方法與工具

百度指數是以百度海量網民行爲數據爲基礎的數據分享平臺。在這裏，你可以研究關鍵詞搜索趨勢、洞察網民興趣和需求、監測輿情動向、定位受衆特徵。
歷來百度指數的採集是爬蟲界的夢魘，衆多程序員也爲採集百度指數絞盡腦汁，本人也經歷了各個階段。這裏說說自己的實現經歷：

（1）模擬曲線似合。

模擬曲線擬合是我實現的第一個版本。從上圖可以看見，指定曲線有特定的顏色，因爲可以用python的圖片處理庫在圖表截中搜索特定的點。同時結合最右典的刻度尺，就能夠大概推算出當天的指數值。

這種方式有如下缺陷：
a - 指數在坡度變化大的地方推算出來的值誤差較大。

b - 需要處理的細節很多。如在A\B\C\D\E\F等拐點處，這幾個點的顏色與線條的顏色完全一樣，因此需要做特殊處理。

c - 找點顏色算法的效率。我當初採用的方案是從上到下、從右到右。先找到最左右的第一個點，然後在附近查詢。因爲點是連續的。一般情況下一定能找到一個就近點。若因圖片或其它干擾因素沒有找到怎麼處理呢？那麼就先找下一個點，然後推算出當前缺失的點。

流程一般是：截圖 -> 截取刻度尺-> 找點 -> 估值。

（2）圖片文字識別

這種採集效率太低，而且準確率不高。

* 間隔時間1天誤差: 0.1%

* 間隔時間10天誤差: 0.2% 建議採用該間隔！

* 間隔時間30天誤差：1%

（3）最近研究出來的新方法（採集100%精準，而且採集速度很快。一個詞只需要幾秒鐘）

最近研究出最新的百度指數採集方案。可實時採集百度趨勢指數（包括整體指數、PC指數、移動指數），媒體指數、需求圖譜、資訊關注、人羣畫像。

支持天模式、周模式、月模式、年模式。輸出爲csv格式。

效果如下所示：