網絡爬蟲-爬取指定城市空氣質量檢測數據

爬取指定城市空氣質量檢測數據

網站鏈接 → https://www.aqistudy.cn/historydata/

以月數據爲例,見下圖:
在這裏插入圖片描述

然後我們通過console調試可以發現 這個網頁在items裏面已經將數據打包好了,如下圖所示
在這裏插入圖片描述

沒毛病,數據全都對得上,接下來的思路就是利用拼接url的方法,使用selenium進入網頁,利用selenium的注入js方法,直接讓網頁返回我們想要的數據源,然後存儲下來即可。

result = browser.execute_script("return items") # 直接接受網頁返回的json數據

好的 接下來就是喜聞樂見的測試環節了~

在這裏插入圖片描述

可以發現並沒有什麼毛病。但是當我們打開存儲下來的CSV文件的時候會發現!

在這裏插入圖片描述

What the fuck? 跟我想象中的有出入啊! 咋回事呢小老弟全是亂碼 –
於是面向百度瞭解了一波
解決方案如下:

1. 先將CSV用txt記事本打開,然後選擇ANSI編碼方式。另存爲,點編碼這裏,這裏的編碼有這麼幾種選擇ANSI/Unicode/Unicode big endian/UTF-8
2. 選擇ANSI,然後保存,再用Excel打開,就不會有亂碼了。

在這裏插入圖片描述

在這裏插入圖片描述

OK 大功告成 數據格式也全都正確了 very nice!

github傳送門 → Go and have a look

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章