2011年初,作爲齊普生的一名普通的工程師,我開始在XX銀行XX省分行辦公大樓爲期4個月的駐場值守,值守期間,省行辦公大樓局域網出現辦公終端 Ping 東郊機房OA服務器偶爾有丟包的問題,經現場察看設備信息,以及鏡像抓包分析,定位問題原因爲部分辦公終端瞬間發出大量arp報文導致核心交換機CPU瞬時升高,從而造成局域網瞬間丟包,現就問題的詳細分析過程如下:
1. 【問題描述】
問題的具體現象是:東風大樓的辦公網辦公終端 ping 網關,或者ping 服務器,正常情況下無丟包,延時也在10ms以內,偶爾會出現延時增大到100ms以上並出現丟包,造成計算機的彈出畫面暫時卡住,幾秒到一分鐘之後自動恢復。連線客戶端每隔一段時間,會提示MaCfee病毒庫過期,而客戶端已經設置了自動更新,且自動更新爲上班期間,主要集中在每日下午四點到五點。具體的丟包情況如下:
最初40樓反映計算機瞬間卡住的問題反映,當時登陸交換機時的接入交換機的狀態和瞬間卡住的時候PING OA服務器和網管的網絡延時均連續而穩定。
從3月14號下午四點到五點之間PING
OA服務器和OA服務器網關的延時統計如下圖所示:
1, 終端Ping網關 56.0.160.98,ping包4033個,丟包9個,丟包率0%,
2, 終端PingOA服務器 56.0.160.16,ping包4025個,丟包11個,丟包率0%。
以下爲3月17號下午4點半到5點存在少量的ARP告警的條件下測試OA服務器與網關延時統計:
從3月14號下午四點到五點之間PING
OA服務器和OA服務器網關的延時統計如下圖所示:
1,Ping網關 56.0.160.98,ping包1365個,丟包2個,丟包率0%,
2,PingOA服務器 56.0.160.16,ping包1393個,丟包0個,丟包率0%。
2. 【問題原因】
1.在辦公終端 ping 網關或者服務器出現丟包的瞬間在網關設備及H3C
S9508交換機上查看CPU 任務,開啓交換機設備的隱藏命令,發現處理 ARP報文的進程耗費CPU資源急劇上升,如下:
[GD_DL_SW11-hidecmd]_dis task 6
ID Name Priority Status CPU Time
1 WEIL 10 Ready 7/11
……
30 L2PS 100 Delay 1/106
31 DL3 100 Event Sem 98/221
……
36 ESFP 11 Delay 1/2
而在正常時該進程耗費cpu如下:
[GD_DL_SW11-hidecmd]_dis task 6
31 DL3 100 Event Sem 1/221
同時在S9508上查看設備log,發現存在arp攻擊告警,部分告警如下:
%Mar 16 18:11:01 2011 GD_DL_SW11 DIAGCLI/5/LOG_WARN:Slot=6;
Detect ARP attack from MAC 0021-97c2-2e8b, VLAN: 54, GigabitEthernet6/1/10 !
%Mar 16 18:10:43 2011 GD_DL_SW11 MSTP/3/NOTIFIEDTC:Instance 0's port GigabitEthernet6/1/5 notified topology change!
%Mar 16 18:10:11 2011 GD_DL_SW11 DIAGCLI/5/LOG_WARN:Slot=6;
Detect ARP attack from MAC 0016-ec3f-4a02, VLAN: 54, GigabitEthernet6/1/10 !
針對告警出現的幾個mac地址,在交換機上對其鏡像抓包,抓包時間爲10分鐘,在S9508log提示0021-97c2-2e8b出現攻擊的時候該辦公終端在100ms之內發出了240個arp請求報文,另一個mac0016-ec3f-4a02也在100ms之內發出240個左右的arp請求報文。
2.經過查詢,全省的MaCfee殺毒軟件自動更新時間全部都是下午五點之前那段時間,此時也到了下班的時間,大量的客戶端在同時更新病毒庫,可能會有部分MaCfee客戶端在下班前升級不成功,當未成功升級天數超出策略系統限制閾值時,客戶會收到不滿足安全策略的告警信息。策略未滿足的前提下訪問受限的資源,將會收到被拒絕的提示信息。
3. 主機較爲陳舊硬件配置已達不到應用要求(CPU單、物理內存不夠);開啓多個任務時,物理內存已全部耗盡,虛擬內存也已經使用了近一半的資源,CPU利用率也達到60%已上,主機的運行狀態已達到性能瓶頸,因此會出現訪問網絡資源慢的問題。在加上殺毒軟件和防火牆的過濾,導致性能進一步下降。
3. 【問題分析】
綜合以上分析,可以得出結論:大樓局域網內部分辦公終端懷疑中病毒(已經基本查出其IP地址和MAC地址),導致這些辦公終端或是下聯的HUB會不定時的在很短的時間內(100ms內)發出數百個arp報文,導致核心交換機或是接入交換機cpu瞬間升高,但未超出40%,最終導致局域網內部分辦公終端出現偶爾的ping丟包,主要集中在用戶流量大,上傳下載頻繁的時間段。但是大部分時間下也存在少量的ARP告警,並未出現丟包或是延時高的情況。
現在初步分析除了某些可能的ARP攻擊之外,其餘的過多的ARP還是某些通信軟件造成的,比如說飛Q、飛鴿等局域網共享軟件,16樓的一種專門用來辦公的業務軟件,上述軟件經常性的掃描網段,造成ARP泛洪。
4. 【解決方案】
該問題由辦公終端病毒異常發包導致,建議解決方案如下:
1.根據H3C S9508上的log告警提示的存在arp攻擊的日誌,將相應辦公終端隔離殺毒,從源頭上根除,清除終端上的局域網共享軟件,比如飛Q,飛鴿等,在接入交換機上封殺445,2425等端口;
2.爲避免類似問題再次出現建議在接入交換機連接終端辦公終端的端口上增加相應的arp保護機制:
[Sysname-Ethernet1/0/1]arp rate-limit enable
[Sysname-Ethernet1/0/1]arp rate-limit 10 //每秒允許的arp報文數爲10 pps
[Sysname-Ethernet1/0/1] arp filter source *.*.*.* //這裏配置網關地址。
3.建議加強辦公終端終端的防病毒能力,避免病毒在局域網內再次出現;爭取封掉短時間發出的ARP的端口,可能端口下面連接HUB和打印機,會導致部分用戶收到牽連無法聯網辦公和打印機無法使用。在條件允許的情況下,建議員工提升終端的配置,定期爲員工清除系統垃圾,整理軟件,做好優化。現有16樓部分發出ARP攻擊的辦公終端上裝有Business
Object在各個軟件,這個軟件導致16樓的00e0-4cc2-6b37,0021-97c2-2e8b這兩個辦公終端的ARP包特別多產生告警。
4.麥咖啡殺毒軟件佔用系統資源的優化。