城域網出口兩臺NE5000E同時停止轉發問題-轉自華爲support

問題描述
組網:
國幹(C1)--國幹(C2)
| |
NE5000E1--NE5000E2
\ /
\ /
\ /
R廠家設備
全省城域網出口爲兩臺NE5000E,上行至國幹C廠家設備,口子形組網,NE5000E將城域網路由聚合後,在本地配置黑洞路由,再發布國幹;NE5000E向城域網內部發布缺省路由。故障時兩臺NE5000E全部停止轉發,全省流量中斷,該故障共發生兩次,第一次未做任何操作30分左右自動恢復,第二次中斷通過重啓其中一臺NE5000E後恢復。

告警信息
無任何告警信息

處理過程
1、城域網內部trace公網地址不同,終結到NE5000E;
2、檢查NE5000E各表項狀態均正常,而且有出流量;
3、NE5000E入流量幾乎爲零,或者是兩臺NE5000E上行單板同時出現故障,或者是上行國幹設備沒有轉發;
4、兩臺核心設備同時出現故障的可能應該很小,因國幹設備由集團維護,難以協調,繼續通過省內設備排查;
5、通過省內網管監控接口的流量圖發現,兩臺NE5000E上行口的入流量經常切換,兩臺設備的入流量均爲零時則出現事故,最大疑點就是第二次事故時通過重啓一臺NE5000E恢復,流量圖發現:重啓後城域網所有流量全部切換到重啓這臺設備,再過30分鐘左右,整個城域網流量恢復到正常模型;
6、由第5步可以推斷可以排除NE5000E單板轉發問題,故障原因與國幹設備收斂相關;
7、檢查NE5000E BGP路由更新統計,發現發出的update統計比正常情況高出10多倍,應該存在路由振盪,隨即檢查NE5000E日誌,發現有ospf路由撤銷記錄;
8、再詳細堅持NE5000E路由條目發現,NE5000E發佈給國乾的是ospf路由,並不是手工配置的黑洞路由,ospf路由振盪引入bgp導致國幹路由抑制,問題明確後聯繫集團檢查,集團確認的確做了路由抑制;
9、調整黑洞路由的優先級後,故障不再發生;
10、後續在城域網內部也找到了振盪源,爲R廠家設備與NE5000E黑洞路由配置衝突導致,推動局方修改後問題徹底解決。

根因
1、該問題發生兩次,都是國幹設備停止轉發導致,初步結論是:我司兩臺設備上行板同時出現問題?國幹兩臺設備同時出現硬件問題?國幹兩臺設備路由學習出現異常?兩臺設備同時出現硬件問題的可能性很小,而且兩次故障都能自動恢復,基本排除硬件原因;
2、結合城域網網管對NE5000E上下口流量監控、以及城域網頻繁路由振盪,判斷該問題是由於城域網內部存在路由振盪,觸發國幹設備路由抑制,導致故障發生;
建議與總結
1、處理問題要拓寬思路,不侷限一兩臺設備;
2、出問題後把問題現象搞的越詳細越好,然後順藤摸瓜,找到故障源;
3、對於路由學習類問題,要注意優先級的配置,看詳細路由看看到底是由什麼路由協議生成的;
4、對於具有外部EBGP的環境下,建立網內做發佈的路由器使用手工network+靜態路由指定爲null0的方式進行宣告,雖然這樣增加了麻煩,但是如果將OSPF充分佈到BGP方式,也很難避免網內的IGP協議頻繁的振動和更新
5、在骨幹設備上增加路由接收的過濾策略,對網絡總會有一定好處的

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章