那些年踩過的坑(一)五坑之夜—IPS串聯割接過程回顧

拓撲圖如上圖所示,簡單來說,之前最外層防火牆與DMZ交換機三層連接,中間串聯AVW防毒牆工作在二層模式。在一對DMZ交換機上起HSRP,DMZ-01交換機設置較高優先級。於此對應,兩臺防火牆組成vrrp,FW-01優先級較高。本次割接,是將原有旁掛在DMZ交換機旁作爲IDS使用的IPS設備,串聯在防毒牆與防火牆之間。

計劃割接步驟:

  1. 確認防火牆與交換機工作狀態,確認防火牆主備狀態、vrrp狀態,確認交換機hsrp狀態.命令:dis hrp state dis vrrp show hsrp brief

  2. 在AVW-02和FW-02之間串入IPS-02,將FW-02切換爲主防火牆,使得流量從備側鏈路通過。

  3. 在AVW-01和FW-01之間串入IPS-01,將FW-01切回朱防火牆,使得流量重新從主側鏈路通過。

  4. 切換IPSBypass功能進行測試。割接完畢

割接現象:

  • 在進行第二步時,Fw-02 G1/0/1接口會經歷up-down-up狀態,且端口會與IPS重新協商速率、雙攻模式等。在完成IPS串聯工作後,發現被防火牆主備狀態異常:

  • dis hrp state 顯示 G1/0/1接口狀態爲:G1/0/1 vrid 20 :standby(peer down)。該狀態不正常。當時未測試G1/0/1接口能否被ping通。(此爲坑1)

  • 在這個狀態下,我們嘗試了第一次防火牆切換,切換後dis hrp state,顯示active狀態,正常。但FW上層F5健康檢查全部失敗,業務中斷。此時,我們在FW上ping所有上下互聯對端接口都不通(此爲坑2),在交換機上ping防火牆FW-02 G1/0/1不通,ping vrrp網關不通。瞭解到此現象後,立刻進行防火牆的回切。FW-01防火牆切回爲主防火牆,工作狀態正常。F5健康檢查通過,業務恢復。FW-02防火牆G1/0/1接口仍然顯示爲standby(peer down)狀態,判斷此狀態影響防火牆切換,需首先排除此故障。

  • 位排除IPS的影響,且檢驗FW的切換沒有問題,我們進行了現場的還原,將IPS撤出,恢復原有拓撲。測試通過,沒有問題。

  • 在這樣的情況下,重新串入IPS,排查發現IPS與AVW,端口協商速率只有10M,且AVW設備登錄後響應異常慢,判斷該設備工作狀態不正常,進行重啓操作。重啓後,經過一段時間,FW-02的standby(peer down)狀態變爲standby狀態。此時,在DMZ-02上,pingFW-02 G1/0/1接口通,判斷鏈路沒問題(這一步應該提前做,我會在文章結尾總結)。

  • 再一次切換防火牆主備狀態、FW-02工作正常,交換機ping防火牆直連接口地址,VRRP地址均通。但此時F5上健康檢查有幾個業務健康檢查失敗。由於在割接前已做過主備配置同步操作,認爲主備配置應該相同。覈對防火牆策略中有相關房型策略,最終經過排查發現兩邊的靜態路由寫的不一致。造成部分路由的缺失,補齊路由,受影響業務恢復。(此爲坑3)進行業務驗證,無問題。

  • 隨後將主IPS串入主側鏈路,此時FW-02爲主防火牆,流量從備側鏈路通過,然而串接過程中,防火牆在未進行操作的情況下再次發生主備狀態切換,由於此時主側鏈路設備尚未連接完成,導致業務再一次完全中斷。手動關閉主側防火牆接口,再次將備側防火牆狀態切換爲主,業務恢復。後經查看防火牆日誌發現,G1/0/1接口狀態出現過down-up的狀態改變,懷疑爲現場操作人員拔錯線或線纜鬆動導致(此爲坑4)。

  • 主IPS串入主側鏈路後,查看FW-01狀態,再次出現standby(peer down)狀態。同時在DMZ-01交換機上pingFW-01 G1/0/1IP地址不通,判斷在這樣的狀態下,不能進行切換操作。此時安全組人員登錄IPS、AVW未發現異常。最終決定重啓IPS和AVW設備,嘗試。(此爲坑5)

  • IPS和AVW設備重啓成功後,FW-01 G1/0/1接口經歷了數次standby(peer down)->standby->standby(peer down)後,最終在安全設備重啓完成後一段時間,穩定在standby狀態。在DMZ-01交換機ping FW-01 G1/0/1接口IP地址通,判斷可以進行切換操作。

  • 切換防火牆狀態,FW-01重新成爲主交換機、FW-02成爲備交換機,且接口狀態爲standby,判斷此時主備狀態正常。進行業務測試,通過。

總結:

此次割接隨然在割接前進行了防火牆主備狀態的檢查、主備配置的同步等操作。但割接前的檢查仍然存在很多不足:

1、沒有進行防火牆與交換機的互ping操作,造成沒有正確狀態下的IP地址可達的記錄,與割接出現故障時的現象無法進行比較。

2、如果提前進行互評操作,就可以避免坑2,坑2是由於防火牆上放行了trust 區域 到 untrust區域所有流量,而untrust區域到trust區域是明細過濾的,這導致交換機ping防火牆通,防火牆ping交換機不通的狀態。且防火牆上G1/0/1接口,原本是禁ping狀態,這同樣對第一次切換時故障的判斷造成了影響。

3、雖然進行了防火牆主備配置同步的操作,但沒有進行靜態路由配置的檢查,沒能提前發現靜態路由的缺失,這造成了坑3。

4、針對peer down狀態出現的具體原因,目前還在等待廠家進一步答覆。在得到答覆後將進一步更新此文章。

關於防火牆主備狀態切換的原理,將在之後的文章中進行分析。

經過此次割接,需加強在割接前網絡狀態的檢查,包括互ping、配置檢查等操作,提前排除隱患。

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章