设计一个网页爬虫

一、需求沟通

1、用例

需求说明:

1. 百度这个网站,通过一系列的url链接,然后去爬取一系列的网站上的数据,生成标题和摘要信息存下来。

2. 用户通过在百度搜索框内输入搜索词之后,可以看到相关的搜索结果列表。这些列表显示的就是之前爬取到的页面标题和摘要。

2、算数

 

二、答案

1、概要设计

2、扩展设计

3、关键点总结

1. 爬虫的部分是不对用户的,所以说,不能连到web server下面,是单独的一块。

2. 爬虫部分:服务器通过非关系数据库给出的原始url,爬到数据之后,通过倒排索引服务生成倒排索引,文件服务生成标题和摘要信息。由于爬虫的数据量非常大,而且不要求实时,所以在中间加上消息队列。

3. 只有Query API是对用户的,所以直接连到web server下面。由于数据量很大,所以扩展部分加上缓存

4. Query API与倒排索引服务,文件服务之间可以加上SQL数据库,用来存生成的倒排索引和文件标题摘要信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章