【網絡排故】能ping通但是不能ssh服務器

花了一天時間找到了問題原因,其中找廠商售後排故無果,自己用時間啃出來的結果。
問題現象:某日下午同事突然告訴我某服務器(Error_A)無法訪問了,接着是一批服務無法訪問。
排故:1 先ping下目標機器,可以ping通(我有點怒,我不信出問題了)。
2 我ssh遠程了下目標機器,果然連不上。
3 直接用wireshake抓個包看下,發現只有去往目的的服務器的SYN握手信息,然後就是兩個重傳SYN報文,這肯定是網絡不可達了,三次握手不能建立連接。
4 進機房排故,排除是硬件or網絡設備原因。(主機、網絡設備、線路檢查了一遍都沒問題)
5 用顯示器鍵盤登陸服務器,ping和ssh同vlan的其他設備沒問題,ping網關有問題了,延遲非常高,還丟包。ping跨vlan的機器,結果是一樣的。
6 這肯定是網關機器的原因了。
7 STELNET網關華爲設備,登陸後在網關上ping Error_A,ping 沒問題。
8 不是配置問題(這是突然出現的問題),那就查看網關設備的運行日誌了,logbuffer把最近的都查了,沒見異常信息。
9 奇怪了,同一個vlan有四份之一的機器出問題了,其他機器去正常。
10 查了vlan配置,接口up/down(物理和管理方式),arp表,mac信息都正常。沒發現設備有啥問題。那就分離有問題的機器,測試排故。
11 直接把有問題的機器Error_A單獨拿出來,直接接到網關設備網口上。
12 看網關的arp表(dis arp network x.x.x.x)出有問題了,這個映射還在以前的接口上?(奧,是mac表沒有老化原因,直接手動清除)

<HUAWEI>display arp network x.x.x.x
<HUAWEI>reset arp dynamic    

13 發現有問題設備Error_A的源mac不能被交換機學習,這是問題原因? 不能動態學習mac地址了?
我們手動添加arp表,驗證下結果

[HUAWEI]arp static x.x.x.x aaaa-aaaa-aaaa vid 109 interface GigabitEthernet 0/0/43
[HUAWEI]display arp network x.x.x.x

14 配置路由可達,用pc1機跨網段ping Error_A,ping 不通了,換臺pc2代替Error_A接入網關相同網口,pc的mac可以正常被學習,通信正常。奇怪了就對Error_A有問題???
15 直接通過acl對Error_A的mac進行做流分類,統計該mac通信是否有丟包的情況。測試結果無丟包,無錯誤包。
16 對比觀察,多次操作dis inter br g0/0/40(連接Error_A),發現問題了,input 有數據再增加,output統計沒有數據量增加
說明一個方向(output)時斷了,這數據哪裏去了? 確認確實有數據進入交換機,但是是沒有從該口轉發出來。
17 第一反應交換芯片問題? 但是其他機器通信正常排出是該問題。
18 是交換機自己丟棄了?答案是正確的,確實是自己丟棄。
19 是什麼讓它對該mac的數據包丟棄呢? 沒有配置acl,沒有mac地址過濾。
20 我也突然想到了STP? (因爲在配置中沒有看到相關stp的配置,所以之前沒關注到這協議,但是華爲默認是開啓的)

<HUAWEI>display stp bri
 MSTID   Port                        Role  STP State     Protection
    0    GigabitEthernet0/0/40       DESI DISCARDING        NONE

看到了,DISCARDING,只是丟棄動作呢。
21 進入該接口 stp disable 看看什麼結果? g00d果然是這個原因。關閉該協議,通信恢復正常。我們刪除剛纔靜態添加的arp表,再次查看arp表,有該mac對應的記錄。
22 但是爲什麼會是stp觸發了discarding呢?沒有LOOP,就一臺虛擬化設備Error_A一條網線,哪來的環路。
23 再次開啓stp協議,通信異常。關閉stp,恢復通信。
故障原因:
網關設備檢測了loop報文,執行了丟棄數據包動作。
疑問:
1 網絡環境確實無loop
2 這明顯是丟包了,但是我配置的流量統計沒有統計到丟包信息?
3 網關設備防環機制不全面,誤報?bug?
4 Error_A確實發了環路報文信息,是誰構造的該報文?
5 難道mstp協議有bug,因爲我是信任華爲設備的,都這麼成熟的產品了。
6 爲什麼開始pc ping Server沒問題,但從server ping pc延遲非常高(pc能ping但是不能ssh?),個人認爲是mstp 處理discarding數據時選擇性丟包的原因
這些問題希望在以後學習or工作中能找到答案。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章