舆情系统设计方案

1.爬虫抓取环节

需要解析来源很多种类的不同网站,每个网站所需要抓取信息的html,css格式大不相同,这个时候需要构造一个通用模版类来解析一部分网站模版的需求,然后再构造一个独立解析的后台系统供编辑使用创建需要解析的模版,然后爬虫系统自动读取后台要解析的独立模版来解析对应的网站内容

2.爬虫监控环节

监控环节包括监控每个种类每个爬虫抓取的数据量,以及监控爬虫的错误日志信息,部分问题可采用自动纠错机制来解决。监控环节还需要增加预警机制,对于未抓取到的数据爬虫和出现当天大量抓取数据的爬虫进行实时预警来通知开发人员查看

3.清洗环节

清洗环节基本要做的内容主要是将垃圾信息过滤,重复信息删除,相同信息合并,敏感信息标敏等等。清洗环节在整个数据汇总层面当然也少不了对该程序的监控预警等功能

4.分析环节

分析环节应该是在整个系统当中最需要注重稳定和效率的环节,因为分析的结果和效率是用户可看的,整个数据的结果集也是相当重要。首先通过搜索引擎的搜索对数据进行分析固化,分析结果为空的要进行纠错或重试处理,错误日志收集,失败请求次数收集,分析数据量收集,用户关键字收集等操作来建设更稳定的系统设计方案


以上内容主要是想表达系统监控,自动纠错,日志收集在整个系统环节都有举足轻重的地位


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章