時間同步優化方案

時間同步服務器優化方案

 

一.            當前問題及結構描述:

1)        主、備2臺時間服務器,分別和不同官方源同步校正時間;

2)        暢遊所有服務器,只和主時間服務器做同步;

3)        備時間服務器,作用是提供主時間服務器內網校正和比對監控,當主備差異時間超過30秒,會預警;

但備時間服務器不提供熱切換功能

4)        本次問題根本原因:主時間服務器硬件損壞,無法連上;導致線上時間同步機制失效

 

二.            優化方案:

1.       優化後結構(紅色爲優化部分):

1)  通過keepalive機制,配置原時間主服務器的IP爲前端虛IP (業務線影響最小化),綁在其中1臺時間服務器上

2)  後端2臺時間服務器,通過北顯機房2個私網ip實現心跳監聽;當時間服01宕機,會把前端虛IP熱漂移到另一臺時間服02,對外ntp同步服務不受影響,01和02的時間同步頻率爲10秒一次

3)  增加同步機制有效性監控,時間相差1秒或者同步不成功及時告警

 

當前時間同步服務器結構圖:


優化後時間同步服務器架構:

                    

 

 

 

2.       優化後說明:

 

 

優化前

優化後

備註

時間同步機制

業務和主時間服務器做同步

業務和時間同步服務前端VIP做同步

業務線同步方式不需要修改

時間同步冗餘互備

主時間服務器

單點

前端VIP後面對應2臺主備冗餘時間服務器,2臺之間誤差小於1秒

新增主備熱切換機制,避免單點故障

監控方式

Ø  主備時間服務器時間差小於30秒

Ø  主時間服務器宕機監控

Ø  主時間服務器ntp服務監控

Ø  所有監控都有郵件報警

Ø  時間準確性監控:

l   與外部官方源每64秒同步一次

l   主備時間服務器時間差處於毫秒級,誤差超過1秒告警,超過5秒停止服務並報警

Ø  服務監控:

l   ntp服務監控,服務或進程丟失立刻報警keepalived服務監控,服務或進程丟失、發生“腦裂”立刻報警

l   各機房時間同步監控,確保各機房都能與時間服務器同步,同時確保時間同步服務可用

Ø  物理服務器監控:

l   CPU、內存、磁盤監控、溫度、電源、raid卡

l   及時更換過保機器

Ø  所有報警在郵件的基礎上增加短信或微信報警

 

 

 

 

 

1)  上述優化方案,已在測試機驗證可行;

2)  方案優點:能實現的是2臺時間服務器互備,不再因單點故障影響時間同步服務;

3)  新方案實施:

a)   根據計劃排期,從小項目實施,逐步分批替換現有業務的時間同步機制,預計1月底完成;

b)   DB服務器時間同步方式修改爲ntpd服務方式進行,這樣可以避免時間立即同步成正確時間,造成業務影響,會把時間差分多次進行平滑同步;

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章