Python3 selenium 網頁table數據抓爬

項目介紹

本項目是對一些複雜的報表解析爬取列表數據,以國家網爲例(大家最好換一個網站),會自動根據數據庫配置text(數據庫爲字典方式),進行
點擊樹形結構,然後input下拉框內時間,並選擇省(時間和省由配置文件配置),但下拉列表的xpath沒有數據庫化,現階段是寫死在代碼中
項目開始由遞歸進行判定是否爲最後一層,字典表可配置N層,看你網站的複雜度

加入QQ羣:943841699

源碼地址:https://gitee.com/xywdy/table_creeper.git

技術

Python3.6
selenium(如果對selenium不瞭解,可參考博客
https://blog.csdn.net/wudaoshihun/article/details/82982596
https://blog.csdn.net/wudaoshihun/article/details/82990670
https://blog.csdn.net/wudaoshihun/article/details/82990920
https://blog.csdn.net/wudaoshihun/article/details/82947091)

本項目採用谷歌瀏覽器內核,需安裝谷歌及匹配的driver
參考:https://blog.csdn.net/wudaoshihun/article/details/82353056
並且linux無界面,需要配置無界面方式進行爬取
參考:https://blog.csdn.net/wudaoshihun/article/details/82948013

使用說明

1. 把resource文件下SQL拷貝並導入數據庫
2. 配置config.py
3. 根據技術目錄指引安裝完畢
4. 現階段只有一張表,class_type爲類型,若不同類型網站,則class_type不同,
group_code爲分組編碼,可根據00000000,每個位代表不同含義,與自己庫中的分類對應。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章