设计一个网页爬虫

原創

家养程序媛关关

2020-07-02 15:18

一、需求沟通

1、用例

需求说明：

1. 百度这个网站，通过一系列的url链接，然后去爬取一系列的网站上的数据，生成标题和摘要信息存下来。

2. 用户通过在百度搜索框内输入搜索词之后，可以看到相关的搜索结果列表。这些列表显示的就是之前爬取到的页面标题和摘要。

2、算数

二、答案

1、概要设计

2、扩展设计

3、关键点总结

1. 爬虫的部分是不对用户的，所以说，不能连到web server下面，是单独的一块。

2. 爬虫部分：服务器通过非关系数据库给出的原始url，爬到数据之后，通过倒排索引服务生成倒排索引，文件服务生成标题和摘要信息。由于爬虫的数据量非常大，而且不要求实时，所以在中间加上消息队列。

3. 只有Query API是对用户的，所以直接连到web server下面。由于数据量很大，所以扩展部分加上缓存

4. Query API与倒排索引服务，文件服务之间可以加上SQL数据库，用来存生成的倒排索引和文件标题摘要信息。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

16种设计思想 - Design for failure

目錄 1、防禦性設計（Defensive Design） 2、邊界情況（Edge Case） 3、防誤措施（Mistake Proofing） 4、解耦（Decoupling） 5、艙壁模式（Bulkhead） 6、冗餘（Redund

尘世间一名迷途小码农

2020-07-08 01:47:44

语义化版本编号（Semantic Versioning）

2020-07-07 12:37:00

谈系统设计之面向对象设计方法

談系統設計之面向對象設計方法

2020-07-07 02:09:08

统一身份管理系统

1、什麼是SSO 單點登錄的英文名叫做：Single Sign On（簡稱SSO） CAS （Central Authentication Service） https://zhuanlan.zhihu.com/p/66037342

九号铅笔芯

2020-07-05 23:53:06

舆情系统设计方案

1.爬蟲抓取環節需要解析來源很多種類的不同網站，每個網站所需要抓取信息的html，css格式大不相同，這個時候需要構造一個通用模版類來解析一部分網站模版的需求，然後再構造一個獨立解析的後臺系統供編輯使用創建需要解析的模版，然後爬蟲系統自動

无名的果实

2020-07-05 00:57:57

设计推特时间轴与搜索功能

一、需求溝通 1、用例 1. 用戶發佈了一篇推特服務將推特推送給關注者，給他們發送消息通知與郵件 2. 用戶瀏覽用戶時間軸（用戶最近的活動） 3. 用戶瀏覽主頁時間軸（用戶關注的人最近的活動） 4. 用戶搜索關鍵詞 5. 服務需要有高可

家养程序媛关关

2020-07-02 15:18:55

淘宝Tair分布式缓存系统总体结构分析

簡介 tair 是淘寶自己開發的一個分佈式 key/value 存儲引擎. tair 分爲持久化和非持久化兩種使用方式. 非持久化的 tair 可以看成是一個分佈式緩存. 持久化的 tair 將數據存放於磁盤中. 爲了解決磁盤損壞導

_飞翔的企鹅_

2020-07-01 18:55:34

DDD概述和基于DDD的微服务设计概述

DDD（領域驅動設計）（轉自：https://blog.csdn.net/bestcxx/article/details/106353819） 1. 程序員的角度非DDD: 結構體+set/get 2者放在實體層，喫飯等天生的方法放在

2020-07-01 17:09:57

怎样挖掘用户需求

需求分析在數據庫生命週期中至關重要，通常也是涉及人員最多的步驟。數據庫設計師在這個階段必須走訪最終用戶，與他們進行訪談，從而確定用戶想在系統中存儲什麼數據以及想怎樣使用這些數據。我們將需求分析分爲兩個步驟：1.理解用戶需求；2

2020-06-28 08:08:38

系统设计：关于高可用系统的一些技术方案-- 引用

引用學習地址如下： https://blog.csdn.net/hustspy1990/article/details/78008324

会弹钢琴的工程师

2020-06-28 04:03:43

6. 秒杀系统-影响性能的因素和提高系统性能的方法

影響性能的因素 “性能”，服務設備不同對性能的定義也是不一樣的，例如 CPU 主要看主頻、磁盤主要看 IOPS（Input/Output Operations Per Second，即每秒進行讀寫操作的次數）。我們討論的主要

2020-06-26 14:24:19

GUI 设计原则

1. 理解用戶要做什麼。典型的用戶界面設計都要進行任務分析來理解用戶任務的性質。 2. 讓用戶在系統的交互過程中有掌握控制權的感覺。無論何時用戶發起的交互都應該可以被取消。 3. 要提供多種方式來完成每個與界面相關的動作（例如關閉一個窗口

2020-06-26 13:17:20

需求分析注意事项

在談話過程中應該不時地停下來做養總結，測試一下你對問題的理解，熟悉和使用領域術語，並晝使談話氣氛保持輕鬆愉快。對你所不熟悉的領域術語，務必讓對方解釋清楚。不必擔心對方覺得你無知。你和他談話的目的正是要獲得業務知識，學習領域術語。畢竟在後

2020-06-26 13:17:20

ARTS 20190921 technique lambda 架构 wiki

wiki對lambda架構的解釋很簡明： https://en.wikipedia.org/wiki/Lambda_architecture 1.數據庫不覆蓋已有的數據，新數據加時間戳保存； 2.採用預計算+緩存的方式加速查詢； 3.對最

葛俊在新泽西

2020-06-26 05:11:00

告警规则算法 RealTimeAlarm 02

doc=NotifyRequestDocument.Factory.newInstance(); NotifyReque

2020-06-25 11:52:07

24小時熱門文章

最新文章

最新評論文章