我是用Java寫爬蟲的,
我是用Selenium實現爬取的
因爲我從離職同事那邊接手了一套,可執行爬蟲代碼程序, 所以就開始了我的爬蟲之路(最後發現這條路很短)
網上推薦的 爬蟲用python 和Python框架scrapy
但我有現成的一套了, 沒必要去做一套新的python程序
selenium 還是很好使的, 它模擬人的瀏覽器操作
直接就解決了很多問題, 如爬取動態js加載的頁面
我改造後的架構是這樣的, 只能簡單地畫下
爬取程序01部分
1 配置一個驅動URL和相關位置配置表01
2 爬取url 裏指定的位置a標籤點進入後的頁面, 整個html 保存到表02
解析程序02部分
1 配置正則url 和對應解析標籤css路徑表03
2 用Java的jsoup 解析之前的 靜態html到表04
我把我的爬蟲架構成爲 "4表2程序"
這就實現了爬蟲 , 後來剩下的大部分時間都在配置css路徑...
涉及和實現的功能:
1 模擬登陸, 單獨花時間寫程序, 一個網站一個登陸程序, 沒什麼通用性
2 代理ip,公司竟然不掏錢買, 只能一個機器ip,幹到底
3 實現了多線程爬取
4 實現了避免爬取相同網址
5 實現了反覆解析靜態頁面
爲什麼說爬蟲之路很短呢,
爬取的是網上公開的某類文章, 直接爬取後展示, 已經滿足了目前公司的需要
不是做競品分析, 只是類似於政績一樣的東西存在,
所以還沒有下文...
如果爬取下來的 東西,有AI去分析,整理, 能指導公司業務,
那就會給爬蟲開發部分投入更多的資源, 那就有了繼續上路的必要
但關於 下面的東西我還是有興趣的
1 文章內容的用算法方式通用提取,
2 同一篇文章轉載後, 根據文章最長一句話的hash 去重