輿情繫統設計方案

1.爬蟲抓取環節

需要解析來源很多種類的不同網站,每個網站所需要抓取信息的html,css格式大不相同,這個時候需要構造一個通用模版類來解析一部分網站模版的需求,然後再構造一個獨立解析的後臺系統供編輯使用創建需要解析的模版,然後爬蟲系統自動讀取後臺要解析的獨立模版來解析對應的網站內容

2.爬蟲監控環節

監控環節包括監控每個種類每個爬蟲抓取的數據量,以及監控爬蟲的錯誤日誌信息,部分問題可採用自動糾錯機制來解決。監控環節還需要增加預警機制,對於未抓取到的數據爬蟲和出現當天大量抓取數據的爬蟲進行實時預警來通知開發人員查看

3.清洗環節

清洗環節基本要做的內容主要是將垃圾信息過濾,重複信息刪除,相同信息合併,敏感信息標敏等等。清洗環節在整個數據彙總層面當然也少不了對該程序的監控預警等功能

4.分析環節

分析環節應該是在整個系統當中最需要注重穩定和效率的環節,因爲分析的結果和效率是用戶可看的,整個數據的結果集也是相當重要。首先通過搜索引擎的搜索對數據進行分析固化,分析結果爲空的要進行糾錯或重試處理,錯誤日誌收集,失敗請求次數收集,分析數據量收集,用戶關鍵字收集等操作來建設更穩定的系統設計方案


以上內容主要是想表達系統監控,自動糾錯,日誌收集在整個系統環節都有舉足輕重的地位


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章