故障排除

 

故障排除
 
掌握網絡故障排除一般步驟
掌握常用故障診斷工具
掌握斐訊網絡產品故障排除常用方法
 
 
故障排除綜述
網 絡 現 狀
支持包括數據、音頻和視頻集成傳輸的綜合應用;
新技術不斷出現;
現代網絡與傳統網絡的共存。
 
網絡故障一般分類
連通性問題
硬件、媒介、電源故障;
配置錯誤;
設備兼容性問題。
性能問題
網絡擁塞;
到目的地不是最佳路由;
供電不足;
路由環路;
網絡不穩定。
 
網絡故障排除基本步驟
 
案例:廣播流量引起的FTP業務問題
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


 

10.11.56.0爲一個用戶網段;10.11.56.118爲一個日誌服務器;10.15.0.0是一個集中了很多應用服務器的網段。
用戶反映:日誌服務器與10.15.0.0/16網段的備份服務器間備份發生問題
 
 
故障現象描述
如何描述故障現象
這個問題是連續出現,還是間斷出現的?
是完全不能備份,還是備份的速度慢(即性能下降)?
哪個或哪些局域網服務器受到影響,地址是什麼?
正確故障描述
在網絡的高峯期,日誌服務器10.11.56.11到集中備份服務器10.15.254.253之間進行備份時,FTP傳輸速度很慢,大約是0.6Mbps。
 
故障相關信息收集
信息收集途徑
向受影響的用戶、網絡人員或其他關鍵人員提出問題;
根據故障描述性質,使用各種工具蒐集情況,如網絡管理系統、協議分析儀、相關 show 和 debug 信息等;
測試性能與網絡基線進行比較。
收集到以下信息
最近10.11.56.0網段的客戶機不斷在增加;
129.9.0.0網段的機器與備份服務器間進行FTP傳輸時速度正常爲7Mbps,與日誌服務器間進行FTP傳輸時速度慢,只有0.6Mbps;
在非高峯期日誌服務器和備份服務器間FTP傳輸速度正常,大約爲6Mbps。
 
 
各種可能原因列表
日誌服務器A的性能問題;
10.11.56.0網絡的網關性能問題;
10.11.56.0網絡本身的性能問題;
網雲性能問題。
 
 
對每一原因實施排錯方案;
觀察故障排除結果;
循環進行故障排除過程:
當針對某一可能原因的排錯方案沒有達到預期目的,循環進入下一可能原因制定排錯方案並實施;
當所有可能原因列表的排錯方案均沒有達到排錯目的,重現進行故障相關信息收集以分析新的可能原因。
案例可能故障循環分析
定位故障:最近大量用戶加入導致網段10.11.56.0上廣播包過多;
排除故障:把日誌服務器移到10.15.0.0/16網段。
 
故障排除過程文檔化
故障現象描述及收集的相關信息;
網絡拓撲圖繪製;
網絡中使用的設備清單;
網絡設備的配置清單;
故障發生的可能原因;
對每一可能原因制定的方案和實施結果;
本次排錯的心得體會;
其他:如排錯中使用的參考資料列表等。
 
網絡設備故障診斷主要有以下命令:
ping
tracert
show
debug
 
Ping命令簡介
網絡設備平臺的ping命令
Windows平臺的ping命令
 
基礎知識
ICMP-Internet Control Message Protocol
ICMP處於OSI的L3網絡層,設計用於爲網絡管理人員的維護和排障工作提供必要且便利的信息
參閱ICMP的報文結構:根據Type類型碼可以將ICMP分爲Echo、Unreachable、TTL exceed、Redirect等多種。當Type=8時,爲Echo Req報文,Type=0時,爲Reply報文
 
ICMP – Internet Control Message Protocol,處於OSI-7的第三層,即網絡層。
其設立的主要目的是爲網絡管理人員的維護和排障提供必要的消息。
我們在網絡基礎的內容中學習過,ICMP還可以根據其操作碼OP code分爲很多種類,常見的如:ECHO、Unreachable、TTL exceed、Redirect等,但其中用的最多的就是ECHO。
ECHO可分爲ECHO request和ECHO reply。
我們後面要介紹的兩種探測類網絡工具都與此有關。
ICMP Header解析:
Type:類型
         取值爲0或者8,分別代表ECHO和ECHO reply報文;
Code:操作碼
         取值0;
Identifier:識別碼
Sequence Number:序列號
         當code=0時,識別碼和序列號用於協助ECHO和ECHO reply的匹配;
         ECHO發送時,identifier中的值,將用於匹配ECHO reply報文中的值;而序列號是用於區分多組ECHO和ECHO reply的。
Data:數據
         ECHO的填充數據字段。通常ECHO的data將被用於填充在ECHO reply報文的data字段中;
 
 
PING
ICMP是一套網絡層的協議/標準
Ping是一個應用程序,藉助了ICMP中的Echo報文,用以探測IP網絡中某主機是否可達
Ping的基本工作原理(Echo Req+Echo Reply)
 
ICMP是網絡控制消息協議,是一個標準。
其opcode=8時,就是ECHO request報文,opcode=0時,就是ECHO reply報文。
PING是一個具體的應用程序;Ping是一個象聲詞,來源于海洋聲納探測操作。
它借用了ECHO報文的格式,以request來探測目標ip地址/網絡的可達性,如果收到了對應的reply,則認爲對方可達。即ping探測成功。
 
 
PING的輸出信息
在網絡設備上,ping的結果很多都是使用字母和標點來表示的,常見的有如下幾種
!!!!!
         表示echo和echo reply完全正常,ping成功
......
         表示timeout超時,reply沒有在規定時間內返回;也有可能Echo沒有正常發出;也可能目標不存在
TTTTT
         表示TTL超時,icmp報文在轉發過程中變成0了
UUUUU
         Unreachable,當內ping設備沒有相關的路由時,通常回返回目標不可達信息
 
注意:
注:ping不是萬能的。Ping不通,並不說明網絡不通;ping的通,也不一定說明網絡可用。
 
 
Tracert命令簡介
網絡設備平臺的tracert命令
Windows平臺的tracert命令
 
 
 
 
 
 
show命令
show version
show running-config
show task/cpu
Show ip int brief
show interface
 
 
 
Show interface
#sho int s1/0:0
Serial 1/0:0is up, line protocol is down  
  Mode=Async Speed=9600
   DTR=UP,DSR=DOWN,RTS=UP,CTS=DOWN,DCD=DOWN  
   MTU 1500 bytes, BW 9 kbit, DLY 10000 usec 
   Encapsulation PPP, loopback not set 
   Keepalive set(10 sec)
   LCP Listening -- waiting for remote host to attempt open
   60 second input rate 0 bits/sec, 0 packets/sec!  
   60 second output rate 0 bits/sec, 0 packets/sec!   
       0 packets input, 0 bytes, 8 unused_rx, 0 no buffer
       0 input errors, 0 Parity, 0 frame, 0 overrun    
       0 packets output, 0 bytes, 8 unused_tx, 0 underruns 
   error:  
       0 clock, 0 grace
 
DCD(Data Carrier Detect 數據載波檢測),主要用於Modem通知計算機其處於在線狀態,即Modem檢測到撥號音, 處於在線狀態。
DTR(Data Terminal Ready,數據終端準備好) ,當此引腳高電平時,通知Modem可以進行數據傳輸,計算機已經準備好。
DSR(Data Set Ready 數據準備好) ,此引腳高電平時,通知計算機Modem已經準備好,可以進行數據通訊了。
RTS(Request To Send 請求發送) ,此腳有計算機來控制,用以通知Modem馬上傳送數據至計算機;否則,Modem將收到的數據暫時放入緩衝區中。
CTS(Clear To Send 清除發送),此腳由Modem控制,用以通知計算機將欲傳的數據送至Modem。
在這五個控制信號中,DTR和RTS是DTE設備(數據終端設備,在實際應用中就是路由器)發出的,DSR、CTS和DCD是DCE設備(數據電路終結設備,在實際中就是各種基帶MODEM)發出的。
Debug
 
debug命令概述
獲得路由器中交換的報文和幀的細節信息
Debug不同應用的交互過程
debug命令使用注意事項
不使用debug命令監控正常的網絡運行
在網絡使用的低峯期使用
在沒有完全掌握某debug命令的工作過程以及它所提供的信息前,慎重使用該debug命令
使用debug命令 後,應立即以“no debug all”命令終止debug的執行。
show和debug命令配合使用  
 
 
 
故障排除常用方法
 
分層故障排除法
 
分塊故障排除法
管理部分(路由器名稱、口令、服務、日誌等)
端口部分(地址、封裝、vrrp、速率、認證等)
路由協議部分(靜態路由、RIP、OSPF、BGP、路由引入等)
策略部分(路由策略、策略路由、安全配置等)
接入部分(主控制檯、Telnet登錄或啞終端、撥號等)
其他應用部分(***配置、Qos配置等)
 
 
分段故障排除法
網絡分爲若干段,逐段測試,縮小故障範圍,逐段定位網絡故障,並排除。
 
 
 
 
 
 
 
 
 
 
 


 

替換法
 
當網絡拓撲中的某個設備疑似發生故障的情況下,可以通過替換法來觀察是否是設備的硬件故障。
注意:
替換法最好用自己的設備進行。可同一型號,也可不同型號。
 
排錯基本方法
硬件
我們應該檢查些什麼?
各種指示燈狀態
啓動信息
通過SHOW命令查看硬件的信息
查看錯誤消息提示
查看LOG文件
查看發佈的版本情況
什麼會導致硬件問題?
硬件質量
不正確的操作
真正的硬件問題是有規律而且現象是固定的.
 
軟件
不正確的設置
沒有正確的理解命令參數的含義
e.g. ip address 10.1.1.0 255.255.255.0
參考show命令
通過分析縮小你的觀察範圍並通過show和debug命令
捕捉正確的信息,然後進行分析並解決
軟件代碼問題
通過相關命令查看CPU,MEMORY,INTERFACE等狀態
debug ip packet,debug ip icmp…
查看是否爲發佈的最新正式版本
如果是臨時版本,查看相應臨時版本發佈功能的說明,確認是否可以解決當前出現的問題; 如果不能確定,請聯繫產品經理
 
 
 
對技術人員的要求
充分了解所管理和維護的網絡
網絡拓撲、物理拓撲
網絡使用的各種技術,包括局域網技術、廣域網技術、路由協議、網絡安全技術、QoS等等
網絡運行業務總類
流量分佈
最近網絡變化情況
網絡測試基線(參照法)
及時進行故障排除的文檔記錄和經驗總結
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章