fengsong97用到的爬蟲 4表2程序架構圖

原創

2020-06-20 07:37

我是用Java寫爬蟲的,

我是用Selenium實現爬取的

因爲我從離職同事那邊接手了一套,可執行爬蟲代碼程序, 所以就開始了我的爬蟲之路(最後發現這條路很短)

網上推薦的爬蟲用python 和Python框架scrapy

但我有現成的一套了, 沒必要去做一套新的python程序

selenium 還是很好使的, 它模擬人的瀏覽器操作

直接就解決了很多問題, 如爬取動態js加載的頁面

我改造後的架構是這樣的, 只能簡單地畫下

爬蟲4表2程序架構

爬取程序01部分

1 配置一個驅動URL和相關位置配置表01

2 爬取url 裏指定的位置a標籤點進入後的頁面, 整個html 保存到表02

解析程序02部分

1 配置正則url 和對應解析標籤css路徑表03

2 用Java的jsoup 解析之前的靜態html到表04

我把我的爬蟲架構成爲 "4表2程序"

這就實現了爬蟲 , 後來剩下的大部分時間都在配置css路徑...

涉及和實現的功能:

1 模擬登陸, 單獨花時間寫程序, 一個網站一個登陸程序, 沒什麼通用性

2 代理ip,公司竟然不掏錢買, 只能一個機器ip,幹到底

3 實現了多線程爬取

4 實現了避免爬取相同網址

5 實現了反覆解析靜態頁面

爲什麼說爬蟲之路很短呢,

爬取的是網上公開的某類文章, 直接爬取後展示, 已經滿足了目前公司的需要

不是做競品分析, 只是類似於政績一樣的東西存在,

所以還沒有下文...

如果爬取下來的東西,有AI去分析,整理, 能指導公司業務,

那就會給爬蟲開發部分投入更多的資源, 那就有了繼續上路的必要

但關於下面的東西我還是有興趣的

1 文章內容的用算法方式通用提取,

2 同一篇文章轉載後, 根據文章最長一句話的hash 去重

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

JavaScript中的window對象

window對象：每一個該對象代表一個瀏覽器窗口 1.常用方法如下 open("要打開的頁面文件名","打開窗口在操作系統中的名稱(任何名稱都可以)", "toolbar=?,menubar=?,

2020-07-08 12:23:53

B2MailSch for becky! Windows 9x/ME/NT/2K/XP

B2MailSch for becky! Windows 9x/ME/NT/2K/XPCopyright (C) 1994-2005 [email protected] DOWNLOAD下載 0.13 NEW

2020-07-08 12:22:24

Zotero安裝使用說明

文章目錄介紹安裝瀏覽器插件本地下載使用zotero輔助word進行論文引用介紹 zotero是目前我用的還比較順手的一個文獻收集、管理、引用等的一個免費的軟件。它有瀏覽器插件，也有本地的數據庫。使用這個工具你會發現寫論文的時候在

不如烂笔头

2020-07-08 11:54:33

解決Charles每30分鐘重啓一次

Registered Name: https://zhile.io License Key: 48891cf209c6d32bf4

2020-07-08 10:41:26

6月份我國CPI同比上漲4.4％上半年達到3.2％

導讀： 5月份全國工業品出廠價格數據豬肉價格大漲市民瘋狂採購豬肉央行加息時間猜測猜測一：6月下旬　　“5月份豬肉等價格上漲，受比價效應影

2020-07-08 10:20:50

Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成

目錄1 連接2 KDC 安裝2.1 安裝 Kerberos 服務2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /

2020-07-08 09:55:10

基於 Docker 的幾種常用 CentOS7 鏡像

目錄1 安裝 Docker2 配置國內鏡像源3 製作中文環境基礎版Centos7鏡像3.1 Dockerfile3.2 啓動容器3.3 在容器中安裝配置一些基礎服務3.4 SSH3.5 【可選】修改容器配置3.5.1 通過容器的配

2020-07-08 09:55:10

磁盤修復相關整理

1. Linux下面預防與檢測：使用smartmontools工具，用來控制SMART 檢測： 1）用badblocks工具檢測壞塊 #sudo badblock -s -v -c 64 /dev/sda 1000 10 (1000是結

2020-07-08 09:36:58

Cloud Toolkit教程

Cloud Toolkit教程，助你秒部署應用程序

超级大超越

2020-07-08 09:04:39

IDEA：Server‘s certificate is not trusted（服務器的證書不受信任）

引起這個的根本原因是因爲你破解了idea，在本地hosts配置了映射，然後idea檢測出來彈出警告服務器證書不可用，不讓他彈出的方法。打開idea—>file–>Settings然後搜索Server Certificates把

2020-07-08 08:57:40

Visual Studio 性能探查器使用技巧，看這篇就足夠了

Visual Studio 提供了性能測量值和分析工具選擇。某些工具（如“CPU 使用情況”和“內存使用情況”）可以在帶或不帶調試器的情況下運行，也可以在發佈版本或調試版本配置上運行。 “應用程序時間線”等“性能探查器”工具可以在發佈

2020-07-08 08:39:39

上傳本地代碼及更新代碼到GitHub及Git的四種區域五種狀態簡介

上傳本地代碼 step1：去github上創建自己的Repository, 創建頁面如下圖：藍色框爲新建的倉庫的https地址 step2：在你要上傳的本地代碼文件夾下，右鍵點擊“Git Bash Here” 輸入 echo

2020-07-08 08:32:11

window.open()用法詳解

<SCRIPT> <!-- window.open ('page.html','newwindow','height=100,width=400,top=0,left=0,toolbar=no,menubar=no,scrollba

2020-07-08 07:40:43

VS Code保存文件時自動刪除行尾空格

操作如下：同時按下Ctrl鍵、 ,鍵（或者：菜單欄的文件=>首選項=>設置）彈出設置頁面，在輸入框中輸入files.trimTrailingWhitespace，打勾選中，即可使VS Code在保存文件時自動刪除行尾空格。

2020-07-08 07:39:23

搭建 maven服務器（repository）方法中文翻譯

用Artifactory管理內部Maven倉庫 1. 介紹　　Maven是Java開發者中流行的構建工具，Maven的好處之一是可以幫助減少

2020-07-08 06:29:27

24小時熱門文章

最新文章

最新評論文章