爬取指定城市空氣質量檢測數據
網站鏈接 → https://www.aqistudy.cn/historydata/
以月數據爲例,見下圖:
然後我們通過console調試可以發現 這個網頁在items裏面已經將數據打包好了,如下圖所示
沒毛病,數據全都對得上,接下來的思路就是利用拼接url的方法,使用selenium進入網頁,利用selenium的注入js方法,直接讓網頁返回我們想要的數據源,然後存儲下來即可。
result = browser.execute_script("return items") # 直接接受網頁返回的json數據
好的 接下來就是喜聞樂見的測試環節了~
可以發現並沒有什麼毛病。但是當我們打開存儲下來的CSV文件的時候會發現!
What the fuck? 跟我想象中的有出入啊! 咋回事呢小老弟全是亂碼 –
於是面向百度瞭解了一波
解決方案如下:
1. 先將CSV用txt記事本打開,然後選擇ANSI編碼方式。另存爲,點編碼這裏,這裏的編碼有這麼幾種選擇ANSI/Unicode/Unicode big endian/UTF-8
2. 選擇ANSI,然後保存,再用Excel打開,就不會有亂碼了。
OK 大功告成 數據格式也全都正確了 very nice!
github傳送門 → Go and have a look