1 監控對象
監控的對象是ADS防禦範圍內的站點,切入ADS防禦系統的網站具備如下特點:
-
臨時性切入,可能是被攻擊後切入的,這時源站服務本身可能不正常,這時ADS支持人員和用戶一般都能保持線上溝通;
-
臨時性切入的,各地方的DNS解析同步時間不一致;
-
ADS防禦機房是電信線路,較單一。
根據上述特點分析,ADS網站的可用性監控包括四個方面:
-
DNS解析監控,針對ADS網站切入後,監控各區域的解析進度
-
ADS資源監控,監控各區域到ADS機房對外服務IP的可訪問情況
-
站點配置監控,監控系統內加載切入站點的配置情況
-
源站服務監控,監控ADS回源站獲取數據的情況
2 監控流程
ADS調度中心接到某個站切入後,就開啓針對該站相關的監控,當網站切出或停用時,關閉相關的監控。
3 監控方案
任務中心
接收ADS調度中心下發指令,創建或刪除任務,根據任務屬性安排任務循環週期,根據當前註冊的監控模塊(點)進行指派,把指派情況提交到數據中心。
監控模塊(點)
啓動後到任務中心定時註冊,根據註冊結果獲取消息關鍵字,通過即時消息獲取監控任務,對監控對象監控後將結果提交到數據中心。監控模塊(點)表示一個監控模塊部署在一個點上,可以多個監控模塊部署在同一個點上。
數據中心
接收任務中心和監控模塊(點)提交的監控數據,定時彙總根據任務中心要求進行告警或通知。
4 監控模塊設計
4.1 DNS解析監控
下發任務時指定要查詢的域名、期望或不期望的IP或cname名字、超時時間、查詢週期等參數
4.2 ADS資源監控
ADS調度中心爲切入的站分派了IP資源後,該IP的80端口應該從各個區域可以訪問得到,ADS資源監控主要就是探活這些IP的可用性。下發任務時指定IP、端口和查詢週期超時等。
另外還要考慮ADS常規資源監控,因爲ADS由集羣組件,一個對外的IP由64臺server提供服務,需要確保64個均衡IP都可以正常訪問到,才能確保基礎資源的可靠性。
4.3 站點配置監控
ADS調度中心接收站點切入後,將站點配置通過redis逐級同步到ADS server,是否存在配置的問題可以通過機房中心上的redis來監控檢測,因爲server上的redis都是通過本機房中心服務器上的redis進行同步。Server上有腳本監控redis是否及時進行同步了,所以可以將配置的完整性監控放到機房中心的redis上。
配置監控模塊獲取任務,這一任務的信息包括站點名、源站IP等基本信息,這些信息由ADS調度中心寫入到任務中心上。
4.4 源站服務監控
切入ADS的站點常規情況下都是要進行實時防禦的,這類站點遭受的攻擊類型較多,通常會有CC攻擊,所以針對源站的服務監控檢測不適合直接進行,這樣的情況是加重了源站的壓力。
ADS系統內有ccap/tccap可以統計到當前節點上回源的情況,基本就能實時瞭解源站情況,所以源站服務監控模塊接收任務後,定期到ccap/tccap查詢情況,當一段時間內沒有源站數據時,再發起直接到源站的查詢。
5 穩定性指標
ADS穩定性指標以ADS資源監控數據和站點配置監控數據爲主要統計項,力求實現99%的目標。
DNS解析監控數據和源站服務監控數據出現異常時及時告警協調解決(防禦接入時一般都有雙方人員在線溝通)。