系統架構之高效分佈式爬蟲系統的架構設計[申請專利]

原創

2020-02-20 21:44

作者：鄒祁峯
郵箱：[email protected]
博客：http://blog.csdn.net/qifengzou
日期：2015.02.06
轉載請註明來自"祁峯"的CSDN博客

1 引言

　　在互聯網上可找到很多關於爬蟲系統的設計和實現的相關文檔，但仔細閱讀後可發現絕大多數的設計方案的可用性、可靠性、高效性、擴展性等方面均存在很多問題。

　　針對以上問題的存在，本設計方案將以可用性、可靠性、高效性、擴展性爲基本準則重新設計爬蟲系統。

2 處理時序

圖1 爬蟲系統時序圖

　　流程描述如下：

　　①、網頁分析器：負責從已下載的網頁中提取HREF字段，並判斷該HREF是否已經爬取。如果已經爬取，則直接丟棄；如果未爬取，則將該URL推送到REDIS隊列。

　　②、任務調度：負責從REDIS隊列中取出URL信息，並對URL進行解析處理，提取域名等信息，並根據域名進行DNS查詢，找到對應的IP地址，再將URL-IP對應信息放入工作隊列。爲了提高效率，可以在此建一張域名IP映射表，避免重複的DNS查詢處理。如果查詢的是不存在的域名，建表可有效的防止線程的反覆阻塞。

　　③、工作線程：負責從工作隊列取出URL, 並將對應網頁爬取到本地磁盤。在此可以採用非阻塞＋IO多路複用技術，可以併發爬取大量網頁。

　　④、可配置性：可通過修改配置文件，來控制系統的運行行爲。其中包括配置線程數目、過濾策略、隊列屬性、輸入輸出路徑、表空間大小等等。

發佈了66 篇原創文章 · 獲贊 91 · 訪問量 33萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

對郎讀最初版本的回顧

個人博客網址一生亦木文章鏈接：對郎讀最初版本的回顧已關閉評論，如需評論前往個人博客文章目錄前言開發邏輯數據庫設計登錄註冊錄音上傳文章錄入分端操作電腦端移動端小程序端前言其實在接這個項目之前就有設計這個項目的整體包

2020-07-02 02:02:07

（轉）2年重寫10年279萬行代碼，……他是怎麼做到的？華爲這些人爲了什麼

改變，做最好的軟件 ✚ ● ○

2020-07-04 08:43:41

系統架構之增量升級系統架構

系統架構之增量升級系統架構作者：鄒祁峯郵箱：[email protected] 博客：http://blog.csdn.net/qifengzou 日期：2020.06.29 18:15 轉載請註明來自"

2020-07-04 02:21:38

項目設計數據庫表時是否需要在表中加備用預留字段？

需求背景項目設計數據庫表時是否需要在表中加備用預留字段？背景：以前做項目，有用過SSH框架，或者SSM框架，數據庫有Oracle，DB2。在開發過程中，有時因數據庫設計者未考慮周到，業務實體有一個屬性沒有對應的字段，因此需要在數據庫表

2020-06-30 00:24:10

java生成excel 使用easyExcel 有前段可以下載（內有環境包）

發個博客推廣一下alibaba的easyExcel，以一些我使用的體會技巧。我理解easyexcel就是在poi上進行了優化和封裝，性能的道路極高的改善。極高，官網測試1:100的速度。在使用上也極度好理解，就是把excel抽象成二維

2020-07-08 07:34:03

java 使用MultipartFile上傳文件後天無法獲得文件信息前端傳參失敗

參考了大佬的鏈接：http://www.mamicode.com/info-detail-2699618.html java 使用MultipartFile上傳文件，如果不是用form表單提交的話，直接獲取文件使用無法傳參成功 var

2020-07-08 07:34:03

安卓開發環境配置--關鍵步驟以及問題處理

1、安裝as:android-studio-ide-171.4443003-windows 選第1個：選第2個： 2、拷貝壓縮後的sdk到本機，配置： 1）給as配置sdk地址：點擊下圖configure-Project Defau

2020-07-07 22:44:05

AndroidStudio 導入jar包之“項目沒有lib目錄”

前言：一般新建項目是有的，本次項目是從eclipse中基於已有代碼生成項目再轉到AS上的，於是遇到了沒有lib目錄的問題。處理：在項目根目錄下，新建一個lib目錄，把jar文件拷貝進去；在AS中右擊項目名，點擊O

2020-07-07 22:44:05

克隆eclipse項目到本地Androidstudio編寫的全過程

前提：服務器上的代碼是eclipse項目；本地習慣用AS編寫；clone下來的代碼不包含"無效"代碼。 1、克隆項目；對比項目目錄和AS新建項目的目錄不同，且多數文件缺失，請教老師傅： 1）本地工程裏無效文件，不會上傳服務器； 2）服務

2020-07-07 22:44:05

pyqt5 dialog 顯示無框窗口，點擊非窗口區，dialog會自動關閉，QLineEdit彈出下拉框，自動補齊內容

pyqt5 dialog 顯示無框窗口，點擊非窗口區，dialog會自動關閉 QLineEdit 自動補齊，顯示下拉框使用QT.Popup會導致QLineedit無法輸入中文，所以使用QT.Tool窗口屬性，然後在事件中處理窗口

2020-06-26 16:38:00

基於極光IM，ColorUI，renren java開發框架製作的論壇社羣羣聊小程序

微信的聊天功能很完善了，但在某些特殊需求的時候很難找到想要的羣聊最近社羣裂變什麼的很火啊，就想着順便製作一個即時通訊的小程序練練手，於是就有了下面這個半成品。沒打算上線，就幾個內部的人用作交流用，寫下一點對接極光IM開發的一點坑，給過

2020-06-26 10:34:55

開屏展示圖的優化與理解

App舉辦活動，要求展示一個開屏廣告圖首先做一個啓動界面，SplashActivity 設置launcher，圖片設置全屏，展示模式 scaleType = “fitxy”,點擊圖片轉跳邏輯。問題1：由於啓動加載MainActivi

2020-06-25 14:55:26

圖片添加水印相關記錄

最近一直在搞水印相關的業務，整體添加水印，網上代碼一大堆，但是如果接入自身業務邏輯還是必須對添加水印有一個基本瞭解。特別是瑣碎的技能點工具類等，挺耽誤時間，所以在這裏總結記錄下。獲取屏幕View大小，測量擺放等。根據屏幕V

2020-06-25 14:55:24

Android webview加載H5相關知識與理解

十一長假回來，開始搗鼓遺留一些問題，由於webview外連接加載緩慢的問題，決定放到本地加載，本來以爲很簡單的需求但是開始寫的時候還是遇到各種問題，連續兩天一直不停採坑，這裏記錄下，避免以後遇到相似問題。 1、Android 加載本地Ht

2020-06-25 14:55:19

錄屏的知識片段的記錄與理解

最近做一個關於錄屏的功能注：前面一段是查看源碼，證明無法錄製內置音，和自己踩坑的過程。下面有CV大法拿過來直接可以使用的錄屏代碼，心急的朋友可以直接略過分割線以上內容首先：目前沒有發現可以錄製內置音的的方案，因爲是系統全選，

2020-06-25 14:55:19

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章