fengsong97用到的爬蟲 4表2程序 架構圖

我是用Java寫爬蟲的,

我是用Selenium實現爬取的

因爲我從離職同事那邊接手了一套,可執行爬蟲代碼程序, 所以就開始了我的爬蟲之路(最後發現這條路很短)

網上推薦的 爬蟲用python 和Python框架scrapy

但我有現成的一套了, 沒必要去做一套新的python程序

selenium 還是很好使的, 它模擬人的瀏覽器操作

直接就解決了很多問題, 如爬取動態js加載的頁面

我改造後的架構是這樣的, 只能簡單地畫下
 

爬蟲4表2程序架構
爬蟲4表2程序架構

爬取程序01部分

1 配置一個驅動URL和相關位置配置表01

2 爬取url 裏指定的位置a標籤點進入後的頁面, 整個html 保存到表02

解析程序02部分

1 配置正則url 和對應解析標籤css路徑表03

2 用Java的jsoup 解析之前的 靜態html到表04

我把我的爬蟲架構成爲 "4表2程序"

這就實現了爬蟲 , 後來剩下的大部分時間都在配置css路徑...

 

涉及和實現的功能:

1 模擬登陸, 單獨花時間寫程序, 一個網站一個登陸程序, 沒什麼通用性

2 代理ip,公司竟然不掏錢買, 只能一個機器ip,幹到底

3 實現了多線程爬取

4 實現了避免爬取相同網址

5 實現了反覆解析靜態頁面

 

爲什麼說爬蟲之路很短呢,

爬取的是網上公開的某類文章, 直接爬取後展示, 已經滿足了目前公司的需要

不是做競品分析, 只是類似於政績一樣的東西存在, 

所以還沒有下文...

如果爬取下來的 東西,有AI去分析,整理, 能指導公司業務,

那就會給爬蟲開發部分投入更多的資源, 那就有了繼續上路的必要
 

但關於 下面的東西我還是有興趣的

1 文章內容的用算法方式通用提取, 

2 同一篇文章轉載後, 根據文章最長一句話的hash 去重

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章