項目介紹
本項目是對一些複雜的報表解析爬取列表數據,以國家網爲例(大家最好換一個網站),會自動根據數據庫配置text(數據庫爲字典方式),進行
點擊樹形結構,然後input下拉框內時間,並選擇省(時間和省由配置文件配置),但下拉列表的xpath沒有數據庫化,現階段是寫死在代碼中
項目開始由遞歸進行判定是否爲最後一層,字典表可配置N層,看你網站的複雜度
加入QQ羣:943841699
源碼地址:https://gitee.com/xywdy/table_creeper.git
技術
Python3.6
selenium(如果對selenium不瞭解,可參考博客
https://blog.csdn.net/wudaoshihun/article/details/82982596
https://blog.csdn.net/wudaoshihun/article/details/82990670
https://blog.csdn.net/wudaoshihun/article/details/82990920
https://blog.csdn.net/wudaoshihun/article/details/82947091)
本項目採用谷歌瀏覽器內核,需安裝谷歌及匹配的driver
參考:https://blog.csdn.net/wudaoshihun/article/details/82353056
並且linux無界面,需要配置無界面方式進行爬取
參考:https://blog.csdn.net/wudaoshihun/article/details/82948013
使用說明
1. 把resource文件下SQL拷貝並導入數據庫
2. 配置config.py
3. 根據技術目錄指引安裝完畢
4. 現階段只有一張表,class_type爲類型,若不同類型網站,則class_type不同,
group_code爲分組編碼,可根據00000000,每個位代表不同含義,與自己庫中的分類對應。