一個故障的處理過程

前幾天我這裏出現一個故障,某個旗縣交換機的上行口的入流量連續幾天都達到滿容,導致該交換機下掛用戶無法正常上網,現在我將故障處理經過寫一下,供大家參考。

一、組網描述及故障現象

1、組網描述:

我公司城域網從核心層到該旗縣的組網路徑如下:

核心路由器cisco7609千兆下聯中興的三層交換機zxr10-8912,中興的三層交換機百兆下聯旗縣的華爲9306交換機,9306下掛一臺華爲DSLAMma5300和幾臺華爲的33282326交換機,用戶700戶左右。

2、故障現象

該交換機原來日常流量在50-60M間,晚上忙時峯值流量達到80M,從74開始9306的上行的入流量就開始逐漸增大,白天的流量猛增,到了76全天的入流量從9:0022:00都達到100M,用戶普遍反映打開網頁慢,ping網關丟包嚴重。

二、故障處理經過

接到故障申告後我們首先對該出口的流量進行了分析,9306下掛的5300的出流量只有50M左右,且流量較平穩,幾臺33282326的流量合計只有10M不到,這樣一來9306的入流量和向下的流出的流量就存在將近40M的差距,這部分流量被9306交換機直接丟棄了,現在的問題就是這部分流量是從哪裏來的。

爲了判斷這個,我們首先將交換機下掛的設備逐個斷開,但是沒有任何變化,因此懷疑交換機存在問題,將5300提到了9306前面,9306掛在5300上,但是流量仍然沒有變化。
在諮詢華爲廠家後,廠家建議抓包,確定入流量的來源,由於該旗縣距離我們較遠,來回時間太長,爲此我們從8912上對端口進行了端口鏡像,並在鏡像端口上進行抓包,從抓包情況看沒有發現異常的數據包。
鑑於此,我們將8912上對應端口的所有vlan數據全部刪除,發現流量也隨之下降到0,可以確定流量是由於保康的某個用戶引起的,然後我們將vlan逐步加入,隨着vlan的加入,觀察上線的mac地址數量和端口流量的變化,發現在將vlan400495加入時流量有突增,且持續上升,這時候查看端口的mac地址數量並沒有該段的用戶上線,將這部分vlan取出後流量又下降回正常值,將其他vlan加入後沒有出現流量異常的情況,之後我們將這部分vlan10個一段的加入,但是直到加完仍沒有出現異常,一直到第二天一切正常。

三、原因分析

通過故障處理,基本判斷爲旗縣當地有用戶可能是中毒或中***,也可能有人惡意***某用戶,只要該用戶上線則從他網出現***該機器的流量,而之後之所以流量正常,一種可能是該用戶由於一直上網不好下線了,一種是該用戶發現本機存在問題,自己處理了,外網缺少***源,自動停止***。

通過此次故障的處理來看,當某個端口流量過大時,應先對該端口下掛設備的流量進行觀察,如果該設備下掛用戶的出流量之和小於入流量且差額較大,基本可以判斷流量存在問題,既可能是有外網***,也可能是設備本身故障。
這時就需要對端口進行抓包,如果通過抓包發現問題及時處理,如果沒有發現問題則只能通過對用戶逐步排查的方法進行查找。
一種方法是將所有用戶斷掉再逐步添加查找,另一種是逐步將用戶取出查找,如果用戶反映強烈,建議先將用戶全部斷開,這樣只要存在問題的用戶沒有加入,那麼前期加入的用戶就可以正常上網。

以上是此次故障處理的經過,其中肯定存在錯誤,希望能夠看到這篇文章的大俠們多提意見,如果有更好的故障處理方法希望多多提出,多謝!

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章