各位,好
我們在常見的企業邊緣的網絡架構中經常會遇到高可用、堆疊、VRRP等雙機部署情景,那我在前面介紹的一些案例當中,基本都是雙機部署,高可用的企業組網形式,
所以,基礎的配置也都在前面介紹了,但是卻沒有介紹高可用的狀態下如何升級硬件的OS的情景,這裏因爲在上週完成了一次(山石網科-HA)無縫遷移,所以我們這裏特意總結如下思路,
與各位分享,歡迎大家參閱指正。
廠商給出的升級解決方案書:【我這裏也列出來下,大家可以參考下,畢竟我的處理思路和廠商不一致】
抵達客戶現場前,首先確定客戶使用設備目前的版本信息,本次升級的目的,並提前下載好需要升級的版本。抵達客戶現場後,在升級前,仍需做以下準備工作。
1. Consle 登錄兩臺防火牆,使用 show configuration 查看兩臺設備的當前配置,並備份設備配置。(同樣可使用 WebUI 登錄設備並進行配置備份)
2. 使用命令 show ha group 0 查看兩臺設備當前的主備關係,並關閉兩臺設備的HA 搶佔
【Allen回覆:實際更換中,除了HA搶佔,還有需要關閉monitor】
3. 開啓 TFTP,並將升級的版本放置 TFTP 文件夾。使用如下命令上傳新 OS,並將原 OS 作爲備用 OS,新上傳的 OS 作爲新 OS。
HillstoneSA_B# import image from tftp server 192.168.1.254
SG6000-M-2-5.0R3P12.bin
#########################################################
#########################################################
#########################################################
Verified OK
Remove existing images and save? [y]/n: y
Saving ................................................................
Checking saved firmware .............................. OK
Set SG6000-M-2-5.0R3P12.bin as active boot image
【Allen回覆:現在都web上傳了,誰還用tftp,這一步就差評,不夠體諒用戶技術水平】
爲備機進行升級
1. 拔掉備機業務線及 HA 心跳線,使備機下線關閉兩臺設備的 HA 需使用命令 no HA cluster1;
2. 重啓備機,升級備機固件版本;
3. 待備機升級成功後,使用命令 show version 查看設備當前版本,並使用 show configuration 對比備機原配置和當前配置;
【Allen回覆:這一步沒有建議使用什麼工具對比,難道要肉眼看?沒考慮用戶】
4. 拔掉主機業務線及 HA 心跳線,讓主機下線;
【Allen回覆:這裏描述太粗,因爲拔掉和備機上線是一起的操作】
5. 連接備機業務線及 HA 心跳線,此時業務流量走備機;
【Allen回覆:這裏主機的業務線和HA心跳線需要接入嗎?如果接入,爲什麼不在升級之後再連接主設備】
6. 觀察備機工作狀態,確保業務可以在備機上正常運行。
【Allen回覆:這一步完全可以在切換流量後一起確認,多餘】
爲主機進行升級
1. 將 OS 上傳至主機,並設置爲當前 OS,對主設備進行重啓;
2. 待主機升級成功後,使用 show version 查看設備當前版本,並使用命令 show
configuration 對比設備的原配置和當前配置;
3. 使用命令 ha group cluster1 在兩臺設備上開啓 HA;
4. 連接主機業務線和 HA 心跳線;
5. 待 HA 成功協商後,使用命令 preemt 爲主機配置搶佔,業務流量重新恢復到主機;
6. 觀察主機業務狀態,確保業務可以在主機上正常運行。
【Allen回覆:爲備/主機進行升級、這倆個步驟在描述中,用戶會默認認爲先進行備機,但是在整個實施過程當中,這兩步是有很多需要同時進行的,這裏描述太粗,差評】
其他升級注意事項:
最好在抵達客戶現場前提起拿到客戶設備的當前版本和配置,可以在公司使用測試設備對升級方案進行驗證。
【Allen回覆:客戶怎麼有可能有同樣的設備,作爲原廠應該提供升級測試報告+升級計劃建議書,而不是僅僅提供升級計劃建議書】
2. 由於設備切換間會有短暫的斷網,需與客戶提前溝通,確認具體的升級時間計劃。
【Allen回覆:我個人在整個升級過程當中,客戶業務完全沒有任何中斷,甚至丟包也之多隻有3個,這很明顯發現,這份建議書在技術上是有很大瑕疵的】
個人梳理後的操作步驟:(請現場同事同時記錄所有操作細節和完成時間)
PS:爲什麼要做這一步,因爲我們是一家專業的技術服務公司,所以我們隊每一個步驟都需要記錄,以供我們在後期覆盤與思考。這樣會有更多的總結出來。所以我們特意記錄了每一個節點的時間。紅字爲我個人記錄時間。
1.將主備防火牆配置文件web導出,本地備份(共計兩份)-可提前操作將主(備)設備搶佔功能關閉、HA檢測關閉,當前配置:主防火牆有搶佔、主備均掛在了track
總耗時:1分51秒
2.本地web執行上傳OS,主備同時進行,升級---【該步驟可提前給備防火牆實施】,並點擊暫不重啓按鈕。
總耗時:3分45秒
3.console接入備機,將備機設備剝離安能網絡環境,業務線、心跳線、內網線路全部拔掉,並將備機HA羣集ID,no掉。使其不運行HA協議,單機跑
總耗時:1分鐘內
4.本地console重啓備機,使OS版本爲前面上傳的最新版本。
總耗時:4分鐘
5.備機OS固件升級完成後,console:show version查看運行的版本,並使用show configuration比如當前配置文件。【notepad++或excel函數比較觀察】
總耗時:2分鐘
6.備機升級OS後配置文件確認無誤後,並確認沒有運行HA協議後進行流量切換的動作-預計可能會存在中斷1分鐘內
總耗時:1分鐘
主業務丟包:小於4個(用戶完全無感知)
7.在步驟6切換過程中,同時進行console接入主防火牆將主防火牆剝離安能網路環境,業務線、心跳線、內網線路全部拔掉。完成原備機流量的切換,所有線路(業務、心跳(down狀態)、內網),使流量切換至備防火牆。
總耗時:1分鐘
8.將備機的HA協議起來,即:目前正在跑流量的設備,切記這裏不要掛HA的檢測
總耗時:15秒
9.確認流量切換完成後,進行主防火牆重啓,使OS爲前面上傳的最新版本。
總耗時:3分13秒
10.比對主防火牆配置文件,查看版本,notepad++、excel對比確認
總耗時:2分鐘
11.將主防火牆和備防火牆的HA心跳線互聯,確認HA狀態協議是否正常:show ha group 0---成功時【此時協商日誌翻動】,並確認無搶佔
總耗時:18秒
12.console接入主防火牆,接入主防火牆業務、內網線路。確認HA狀態,並觀察業務網絡是否受影響,詳細觀察並測試主備防火牆公網虛擬IP、管理IP(BGP、CTC),是否正常Ping通,若業務存在影響即刻“拔掉”主防火牆所有線路。
總耗時:1分鐘
業務觀察時間:2分鐘
13.通知客戶團隊,協同確認所有監控是否已經正常恢復。
總耗時:1分鐘
客戶團隊確認業務耗時:15分鐘
14.console接入主防火牆,配置HA搶佔功能。還原升級前主備角色。
語法:show ha group 0 先確認ha狀態
Hillstone-A(config)# ha group 0
Hillstone-A(config-ha-group)# preempt
總耗時:35秒
15.模擬設備故障,測試高可用角色熱切換。觀察業務地址丟包情況並記錄。
總耗時:15秒
丟包情況:丟包1個(接受範圍內)
16*. 在維護窗口60分鐘中,若在40分鐘內依據升級流程未完成任務,執行回退工作。
IDC機房現場同事實際記錄時間爲:
11:45 開始執行操作
11:48 備防火牆固件上傳成功
12:00 拔掉所有備防火牆網線,並重啓備防火牆,確認備防火牆固件版本升級成功
12:07 配置比對完成,準備做流量切換操作
12:09 打電話給用戶目前下一步action可能會中斷業務,確認是否可以接受操作
PS:這一步是存在疑問的,因爲維護窗口已經確認,那期間所有操作是已經被授權的
12:11 用戶告知30分之後方可操作
12:30 確認操作並執行切換,並同時將主防火牆網線全部拔掉
12:31 觀察生產業務情況
12:32 確認業務正常,僅丟3個包
12:34 升級主防火牆的固件OS
12:36 將備防火牆的HA協議啓用
12:38 確認固件升級完畢,重啓主防火牆,使其固件版本升級成功
12:40 開始着手比對升級前後的配置文件
12:45 主防火牆配置比對結束
12:47 連接主防火牆和備防火牆HA心跳線路,並使確認HA協議運行正常
12:51 觀察HA雙機配置文件
12:53 與用戶溝通是否可以進行演練主備切換
12:59 模擬故障切換,切換期間業務IP丟包1個
13:01 確認此次升級計劃完成
PS:因中間客戶告知30分鐘之後纔可以執行,故回退計劃時間順延20分也就是13點,我們在此時間內已確認升級計劃結束。
綜上,就是我在給山石網科雙機升級時候的整體思路,並在真實環境中得到了充分的驗證,確實準備充足後,實施的過程不會出現任何差錯,別非常順利的完成了升級。關鍵是客戶完全沒有任何感知,這個是此次案例中,我作爲割接的“主刀”工程師的最自豪的地方。
所以這裏,再次嘮叨一句,大家不要太關注技術實現,適當的注意思路還有文檔的撰寫。
—————來自一家二級運營商的網工分享,勤奮、努力、專注,除了這些沒別的祕訣!!