時間同步服務器優化方案
一. 當前問題及結構描述:
1) 主、備2臺時間服務器,分別和不同官方源同步校正時間;
2) 暢遊所有服務器,只和主時間服務器做同步;
3) 備時間服務器,作用是提供主時間服務器內網校正和比對監控,當主備差異時間超過30秒,會預警;
但備時間服務器不提供熱切換功能
4) 本次問題根本原因:主時間服務器硬件損壞,無法連上;導致線上時間同步機制失效
二. 優化方案:
1. 優化後結構(紅色爲優化部分):
1) 通過keepalive機制,配置原時間主服務器的IP爲前端虛IP (業務線影響最小化),綁在其中1臺時間服務器上
2) 後端2臺時間服務器,通過北顯機房2個私網ip實現心跳監聽;當時間服01宕機,會把前端虛IP熱漂移到另一臺時間服02,對外ntp同步服務不受影響,01和02的時間同步頻率爲10秒一次
3) 增加同步機制有效性監控,時間相差1秒或者同步不成功及時告警
當前時間同步服務器結構圖:
優化後時間同步服務器架構:
2. 優化後說明:
|
優化前 |
優化後 |
備註 |
時間同步機制 |
業務和主時間服務器做同步 |
業務和時間同步服務前端VIP做同步 |
業務線同步方式不需要修改 |
時間同步冗餘互備 |
主時間服務器 單點 |
前端VIP後面對應2臺主備冗餘時間服務器,2臺之間誤差小於1秒 |
新增主備熱切換機制,避免單點故障 |
監控方式 |
Ø 主備時間服務器時間差小於30秒 Ø 主時間服務器宕機監控 Ø 主時間服務器ntp服務監控 Ø 所有監控都有郵件報警 |
Ø 時間準確性監控: l 與外部官方源每64秒同步一次 l 主備時間服務器時間差處於毫秒級,誤差超過1秒告警,超過5秒停止服務並報警 Ø 服務監控: l ntp服務監控,服務或進程丟失立刻報警keepalived服務監控,服務或進程丟失、發生“腦裂”立刻報警 l 各機房時間同步監控,確保各機房都能與時間服務器同步,同時確保時間同步服務可用 Ø 物理服務器監控: l CPU、內存、磁盤監控、溫度、電源、raid卡 l 及時更換過保機器 Ø 所有報警在郵件的基礎上增加短信或微信報警 |
|
1) 上述優化方案,已在測試機驗證可行;
2) 方案優點:能實現的是2臺時間服務器互備,不再因單點故障影響時間同步服務;
3) 新方案實施:
a) 根據計劃排期,從小項目實施,逐步分批替換現有業務的時間同步機制,預計1月底完成;
b) DB服務器時間同步方式修改爲ntpd服務方式進行,這樣可以避免時間立即同步成正確時間,造成業務影響,會把時間差分多次進行平滑同步;