Netscreen 防火牆日常維護指南
一、綜述. 3
二、Netscreen防火牆日常維護. 3
常規維護:. 3
應急處理. 7
總結改進. 8
故障處理工具. 9
三、Netscreen 冗餘協議(NSRP). 10
NSRP部署建議. 10
NSRP常用維護命令. 11
四、策略配置與優化(Policy). 12
五、***防禦(Screen). 13
五、特殊應用處理. 15
長連接應用處理. 15
不規範TCP應用處理. 16
VOIP應用處理. 16
附錄:JUNIPER防火牆Case信息表. 17
防火牆作爲企業核心網絡中的關鍵設備,需要爲所有進出網絡的信息流提供安全保護,對於企業關鍵的實時業務系統,要求網絡能夠提供7*24小時的不間斷保護,保持防火牆系統可靠運行及在故障情況下快速診斷恢復成爲維護人員的工作重點。
NetScreen防火牆提供了豐富的冗餘保護機制和故障診斷、排查方法,通過日常管理維護可以使防火牆運行在可靠狀態,在故障情況下通過有效故障排除路徑能夠在最短時間內恢復網絡運行。本文對Netscreen防火牆日常維護進行較系統的總結,爲防火牆維護人員提供設備運維指導。
圍繞防火牆可靠運行和出現故障時能夠快速恢復爲目標,Netscreen防火牆維護主要思路爲:通過積極主動的日常維護將故障隱患消除在萌芽狀態;故障發生時,使用恰當的診斷機制和有效的故障排查方法及時恢復網絡運行;故障處理後及時進行總結與改進避免故障再次發生。
在防火牆的日常維護中,通過對防火牆進行健康檢查,能夠實時瞭解Netscreen防火牆運行狀況,檢測相關告警信息,提前發現並消除網絡異常和潛在故障隱患,以確保設備始終處於正常工作狀態。
1、 日常維護過程中,需要重點檢查以下幾個關鍵信息:
Session:如已使用的Session數達到或接近系統最大值,將導致新Session不能及時建立連接,此時已經建立Session的通訊雖不會造成影響;但僅當現有session連接拆除後,釋放出來的Session資源纔可供新建連接使用。維護建議:當Session資源正常使用至85%時,需要考慮設備容量限制並及時升級,以避免因設備容量不足影響業務拓展。
CPU: Netscreen是基於硬件架構的高性能防火牆,很多計算工作由專用ASIC芯片完成,正常工作狀態下防火牆CPU使用率應保持在50%以下,如出現CPU利用率過高情況需給予足夠重視,應檢查Session使用情況和各類告警信息,並檢查網絡中是否存在***流量。通常情況下CPU利用率過高往往與***有關,可通過正確設置screening對應選項進行防範。
Memory: NetScreen防火牆對內存的使用把握得十分準確,採用“預分配”機制,空載時內存使用率爲約50-60%,隨着流量不斷增長,內存的使用率應基本保持穩定。如果出現內存使用率高達90%時,需檢查網絡中是否存在***流量,並察看爲debug分配的內存空間是否過大(get dbuf info單位爲字節)。
2、在業務使用高峯時段檢查防火牆關鍵資源(如:Cpu、Session、Memory和接口流量)等使用情況,建立網絡中業務流量對設備資源使用的基準指標,爲今後確認網絡是否處於正常運行狀態提供參照依據。當session數量超過平常基準指標20%時,需檢查session表和告警信息,檢查session是否使用於正常業務,網絡中是否存在flood***行爲。當Cpu佔用超過平常基準指標50%時,需查看異常流量、告警日誌、檢查策略是否優化、配置文件中是否存在無效的命令。
3、防火牆健康檢查信息表:
設備型號 |
| 軟件版本 |
| 設備序列號 |
| |
設備用途 | XX區防火牆 | 設備狀態 | 主用/備用 | 設備組網方式 | 如:Layer3 口型A/P | |
檢查對象 | 檢查命令 | 相關信息 | 檢查結果 | 備註 | ||
Session | Get session |
|
|
| ||
CPU | Get perf cpu |
|
|
| ||
Memory | Get memory |
|
|
| ||
Interface | Get interface |
|
|
| ||
路由表 | Get route |
|
|
| ||
HA狀態 | Get nsrp |
|
|
| ||
事件查看 | Get log event |
|
|
| ||
告警信息 | Get alarm event |
|
|
| ||
機箱溫度 | Get chassis |
|
|
| ||
LED | LED指示燈檢查 |
|
|
| ||
設備運行 參考基線 | Session |
| ||||
Cpu |
| |||||
Memory |
| |||||
接口流量 |
| |||||
業務類型 |
| |||||
機箱溫度 |
|
4、 常規維護建議:
1、配置System-ip地址,指定專用終端管理防火牆;
2、更改netscreen賬號和口令,不建議使用缺省的netscreen賬號管理防火牆;設置兩級管理員賬號並定期變更口令;僅容許使用SSH和SSL方式登陸防火牆進行管理維護。
3、深入理解網絡中業務類型和流量特徵,持續優化防火牆策略。整理出完整網絡環境視圖(網絡端口、互聯地址、防護網段、網絡流向、策略表、應用類型等),以便網絡異常時快速定位故障。
4、整理一份上下行交換機配置備份文檔(調整其中的端口地址和路由指向),提供備用網絡連線。防止防火牆發生硬件故障時能夠快速旁路防火牆,保證業務正常使用。
5、在日常維護中建立防火牆資源使用參考基線,爲判斷網絡異常提供參考依據。
6、重視並瞭解防火牆產生的每一個故障告警信息,在第一時間修復故障隱患。
7、建立設備運行檔案,爲配置變更、事件處理提供完整的維護記錄,定期評估配置、策略和路由是否優化。
8、故障設想和故障處理演練:日常維護工作中需考慮到網絡各環節可能出現的問題和應對措施,條件允許情況下,可以結合網絡環境演練發生各類故障時的處理流程,如:NSRP集羣中設備出現故障,網線故障及交換機故障時的路徑保護切換。
9、設備運行檔案表
設備型號 |
| 軟件版本 |
| 設備序列號 |
| |
設備用途 | XX區防火牆 | 設備狀態 | 主用/備用 | 設備組網方式 | 如:Layer3 口型A/P | |
保修期限 |
| 供應商聯繫方式 |
| |||
配置變更 | 變更原因 | 變更內容 | 結果 | 負責人 | ||
|
|
|
| |||
|
|
|
| |||
|
|
|
| |||
|
|
|
| |||
事件處理 | 事件現象 | 處理過程 | 結果 | 負責人 | ||
|
|
|
| |||
|
|
|
| |||
|
|
|
| |||
|
|
|
|
當網絡出現故障時,應迅速檢查防火牆狀態並判斷是否存在***流量,定位故障是否與防火牆有關。如果故障與防火牆有關,可在防火牆上打開debug功能跟蹤包處理過程,檢驗策略配置是否存在問題。一旦定位防火牆故障,可通過命令進行NSRP雙機切換,單機環境下發生故障時利用備份的交換機/路由器配置,快速旁路防火牆。在故障明確定位前不要關閉防火牆。
1、 檢查設備運行狀態
網絡出現故障時,應快速判斷防火牆設備運行狀態,通過Console口登陸到防火牆上,快速查看CPU、Memory、Session、Interface以及告警信息,初步排除防火牆硬件故障並判斷是否存在***行爲。
2、 跟蹤防火牆對數據包處理情況
如果出現部分網絡無法正常訪問,順序檢查接口狀態、路由和策略配置是否有誤,在確認上述配置無誤後,通過debug命令檢查防火牆對特定網段數據報處理情況。部分地址無法通過防火牆往往與策略配置有關。
3、 檢查是否存在***流量
通過查看告警信息確認是否有異常信息,同時在上行交換機中通過端口鏡像捕獲進出網絡的數據包,據此確認異常流量和***類型,並在Screen選項中啓用對應防護措施來屏蔽***流量。
4、 檢查NSRP工作狀態
使用get nsrp命令檢查nsrp集羣工作狀態,如nsrp狀態出現異常或發生切換,需進一步確認引起切換的原因,引起NSRP切換原因通常爲鏈路故障,交換機端口故障,設備斷電或重啓。設備運行時務請不要斷開HA心跳線纜。
5、 防火牆發生故障時處理方法
如果出現以下情況可初步判斷防火牆存在故障:無法使用console口登陸防火牆,防火牆反覆啓動、無法建立ARP表、接口狀態始終爲Down、無法進行配置調整等現象。爲快速恢復業務,可通過調整上下行設備路由指向,快速將防火牆旁路,同時聯繫供應商進行故障診斷。
故障處理後的總結與改進是進一步鞏固網絡可靠性的必要環節,有效的總結能夠避免很多網絡故障再次發生。
1、在故障解決後,需要進一步總結故障產生原因,並確認該故障已經得到修復,避免故障重複發生。
2、條件容許的情況下,構建防火牆業務測試環境,對所有需要調整的配置參數在上線前進行測試評估,避免因配置調整帶來新的故障隱患。
3、分析網絡可能存在的薄弱環節和潛在隱患,通過技術論證和測試驗證來修復隱患。
Netscreen防火牆提供靈活多樣的維護方式,其中故障處理時最有用的兩個工具是debug(調試)和snoop(探聽),debug用於跟蹤防火牆對指定包的處理,snoop用於捕獲流經防火牆的數據包,由於debug和snoop均需要消耗防火牆的cpu和memory資源,在使用時務必要設置過慮列表,防火牆將僅對過慮列表範圍內的包進行分析,包分析結束後應在第一時間關閉debug和snoop功能。下面簡要介紹一下兩個工具的使用方法。
Debug:跟蹤防火牆對數據包的處理過程
1. Set ffilter src-ip x.x.x.x dst-ip x.x.x.x dst-port xx
設置過濾列表,定義捕獲包的範圍
2、clear dbuf 清除防火牆內存中緩存的分析包
3、debug flow basic 開啓debug數據流跟蹤功能
4、發送測試數據包或讓小部分流量穿越防火牆
5、undebug all 關閉所有debug功能
6、get dbuf stream 檢查防火牆對符合過濾條件數據包的分析結果
7、unset ffilter 清除防火牆debug過濾列表
8、clear dbuf 清除防火牆緩存的debug信息
9、get debug 查看當前debug設置
Snoop:捕獲進出防火牆的數據包,與Sniffer嗅包軟件功能類似。
1. Snoop filter ip src-ip x.x.x.x dst-ip x.x.x.x dst-port xx
設置過濾列表,定義捕獲包的範圍
2、clear dbuf 清除防火牆內存中緩存的分析包
3、snoop 開啓snoop功能捕獲數據包
4、發送測試數據包或讓小部分流量穿越防火牆
5、snoop off 停止snoop
6、get db stream 檢查防火牆對符合過濾條件數據包的分析結果
7、snoop filter delete 清除防火牆snoop過濾列表
8、clear dbuf 清除防火牆緩存的debug信息
9、snoop info 查看snoop設置
Nsrp協議提供了靈活的設備和路徑冗餘保護功能,在設備和鏈路發生故障的情況下進行快速切換,切換時現有會話連接不會受到影響。設計nsrp架構時通常採用基於靜態路由的active/passive主備模式、口型或全交叉型連接方式。
l 基於端口和設備的冗餘環境中,無需啓用端口和設備級的搶佔模式(preempt),避免因交換機端口不穩定而引發nsrp反覆切換。
l 當配置兩組或兩組以上的防火牆到同一組交換機上時,每組nsrp集羣應設置不同的cluster ID號,避免因相同的cluster ID號引發接口MAC地址衝突現象。
l 防火牆nsrp集羣建議採用接口監控方式,僅在網絡不對稱的情況下有選擇使用Track-ip監控方式。在對稱網絡中接口監控方式能夠更快更準確的反映網絡狀態變化。
l 在單臺防火牆設備提供的session和帶寬完全可以滿足網絡需求時,建議採用基於路由的Active-Passive主備模式,該模式組網結構清晰,便於維護和管理。
l 設備運行時應保證HA線纜連接可靠,爲確保HA心跳連接不會出現中斷,建議配置HA備份鏈路“secondary-path”。
l NSRP許多配置參數是經過檢驗的推薦配置,通常情況下建議採用這些缺省參數。
l get license-key 查看防火牆支持的feature,其中NSRPA/A模式包含了A/P模式,A/P模式不支持A/A模式。Lite版本是簡化版,支持設備和鏈路冗餘切換,不支持配置和會話同步。
l exec nsrp sync global-config check-sum 檢查雙機配置命令是否同步
l exec nsrp sync global-config save 如雙機配置信息沒有自動同步,請手動執行此同步命令,需要重啓系統。
l get nsrp 查看NSRP集羣中設備狀態、主備關係、會話同步以及參數開關信息。
l Exec nsrp sync rto all from peer 手動執行RTO信息同步,使雙機保持會話信息一致
l exec nsrp vsd-group 0 mode backup 手動進行主備狀態切換時,在主用設備上執行該切換命令,此時該主用設備沒有啓用搶佔模式。
l exec nsrp vsd-group 0 mode ineligible 手動進行主備狀態切換時,在主用設備上執行該切換命令,此時該主用設備已啓用搶佔模式。
l set failover on/set failover auto啓用並容許冗餘接口自動切換
l exec failover force 手動執行將主用端口切換爲備用端口。
l exec failover revert 手動執行將備用端口切換爲主用端口。
l get alarm event 檢查設備告警信息,其中將包含NSRP狀態切換信息
防火牆策略優化與調整是網絡維護工作的重要內容,策略是否優化將對設備運行性能產生顯著影響。考慮到企業中業務流向複雜、業務種類往往比較多,因此建議在設置策略時儘量保證統一規劃以提高設置效率,提高可讀性,降低維護難度。
策略配置與維護需要注意地方有:
l 試運行階段最後一條策略定義爲所有訪問允許並作log,以便在不影響業務的情況下找漏補遺;當確定把所有的業務流量都調查清楚並放行後,可將最後一條定義爲所有訪問禁止並作log,以便在試運行階段觀察非法流量行蹤。試運行階段結束後,再將最後一條“禁止所有訪問”策略刪除。
l 防火牆按從上至下順序搜索策略表進行策略匹配,策略順序對連接建立速度會有影響,建議將流量大的應用和延時敏感應用放於策略表的頂部,將較爲特殊的策略定位在不太特殊的策略上面。
l 策略配置中的Log(記錄日誌)選項可以有效進行記錄、排錯等工作,但啓用此功能會耗用部分資源。建議在業務量大的網絡上有選擇採用,或僅在必要時採用。另外,對於策略配置中的Count(流量統計)選項,如非必要建議在業務時段不使用。
l 簡化的策略表不僅便於維護,而且有助於快速匹配。儘量保持策略表簡潔和簡短,規則越多越容易犯錯誤。通過定義地址組和服務組可以將多個單一策略合併到一條組合策略中。
l 策略用於區段間單方向網絡訪問控制。如果源區段和目的區段不同,則防火牆在區段間策略表中執行策略查找。如果源區段和目的區段相同並啓用區段內阻斷,則防火牆在區段內部策略表中執行策略查找。如果在區段間或區段內策略表中沒有找到匹配策略,則安全設備會檢查全局策略表以查找匹配策略。
l MIP/VIP地址屬於全局區段地址,配置策略時建議通過全局區段來配置MIP/VIP地址相關策略,MIP/VIP地址雖然可爲其餘區段調用,但由於其餘區段的“any”地址並不包括全局區段地址,在定義策略時應加以注意,避免配置不生效的策略。
l 策略變更控制。組織好策略規則後,應寫上註釋並及時更新。註釋可以幫助管理員瞭解每條策略的用途,對策略理解得越全面,錯誤配置的可能性就越小。如果防火牆有多個管理員,建議策略調整時,將變更者、變更具體時間、變更原因加入註釋中,便於後續跟蹤維護。
Netscreen防火牆利用Screening功能抵禦互聯網上流行的DoS/DDoS的***,一些流行的***手法有Synflood,Udpflood,Smurf,Ping of Death,Land Attack等,防火牆在抵禦這些***時,通過專用ASIC芯片來進行處理,適當開啓這些抗***選項對防火牆的性能不會產生太大影響。如果希望開啓Screening內的其它選項,在開啓這些防護功能前有幾個因素需要考慮:
· 抵禦***的功能會佔用防火牆部分CPU資源;
· 自行開發的一些應用程序中,可能存在部分不規範的數據包格式;
網絡環境中可能存在非常規性設計。
如果因選擇過多的防***選項而大幅降低了防火牆處理能力,則會影響正常網絡處理的性能;如果自行開發的程序不規範,可能會被IP數據包協議異常的***選項屏蔽;非常規的網絡設計也會出現合法流量被屏蔽問題。
要想有效發揮Netscreen Screening***防禦功能,需要對網絡中流量和協議類型有比較充分的認識,同時要理解每一個防禦選項的具體含義,避免引發無謂的網絡故障。防***選項的啓用需要採用逐步逼近的方式,一次僅啓用一個防***選項,然後觀察設備資源佔用情況和防禦結果,在確認運行正常後再考慮按需啓用另一個選項。建議採用以下順序漸進實施防***選項:
l 設置防範DDoS Flood***選項
l 根據掌握的正常運行時的網絡流量、會話數量以及數據包傳輸量的值,在防範DDoS的選項上添加20%的餘量作爲閥值。
l 如果要設置防範IP協議層的選項,需在深入瞭解網絡環境後,再將IP協議和網絡層的***選項逐步選中。
l 設置防範應用層的選項,在瞭解應用層的需求以及客戶化程序的編程標準後,如不採用ActiveX控件,可以選擇這些基於應用層的防***選項。
l 爲檢查網絡中是否存在***流量,可以臨時打開該區段screening頂部Generate Alarms without Dropping Packet選項,確認***類型後再將該選項去除。
l 在設置screening選項的過程中,應密切注意防火牆CPU的利用率,以及相關應用的使用情況;如果出現異常(CPU利用率偏高了或應用不能通過),則立刻需要取消相關的選項。
l 建議正常時期在untrust區啓用防flood***選項,在辦公用戶區啓用flood和應用層防護選項,在覈心業務區不啓用screening選項,僅在網絡出現異常流量時再打開對應的防禦功能。
在金融行業網絡中經常會遇到長連接應用,基於狀態檢測機制的防火牆在處理此類應用時要加以注意。缺省情況下,Netscreen防火牆對每一個會話的連接保持時間是30分鐘(TCP)和5分鐘(UDP),超時後狀態表項將會被清除。所以在實施長連接應用策略時要配置合適的timeout值,以滿足長連接應用的要求。配置常連接應用需注意地方有:
l 如果在長連接應用中已經設計了心跳維持機制(如每隔幾分鐘,客戶端與服務端之間傳送心跳以維持會話),此時無需防火牆上設置timeout時間,使用默認配置即可。
l 長連接應用中沒有心跳機制時,通常情況下建議timeout值爲36小時。應用通常在工作時間建立連接,這樣可在下班後時間拆除連接。
l 在配置 timeout值時,特別提醒不要使用“never timeout”(永不超時)的選項。該選項將可能造成防火牆的session被大量消耗同時這些session處於僵死狀態。如果需要超時等待的時間確實很長,建議配置一個具體的長時間段(如一週)。
正常TCP應用連接建立需要3次握手,然而某些用戶定製的應用程序因開發規範不嚴謹或特殊需要,存在類似SYN沒有置位的連接請求,對於這類不嚴謹的通訊處理應加以特別注意,因爲netscreen防火牆在默認情況下,對這種不嚴謹的TCP連接視爲非法連接並將連接阻斷。建議跟蹤網絡中每類業務的通訊狀況,在某些應用發生通訊障礙時,通過debug分析是否是防火牆拒絕了不嚴謹的TCP 包,確認後通過設置unset flow tcp-syn-check 的命令來使防火牆取消這種防範機制。
Netscreen防火牆默認啓用H.323應用代理機制,應用代理的作用是使防火牆能夠理解應用通訊的內容,讓防火牆能夠從信令通道中提取出協商的端口信息,並在防火牆上動態的打開這些端口,在語音通訊結束後,再動態關閉這些臨時端口。但由於H.323協議的複雜性和各廠家實現上的差異,容易造成防火牆在與各廠家VOIP系統互操作上存在兼容性問題,出現IP話機無法註冊、語音連接無法建立、撥號時間較長等故障現象。解決方法兩種:
1、set alg h323 disable 直接關閉防火牆上的h.323應用代理功能,讓H.323語音流量按常規應用連接方式進行通信。
2、Set policy id X from trust to untrust any any h.323 permit
Set policy id X application ignore
通過訪問控制策略使H.323應用採用常規連接方式進行通信。(注:很多用戶定製程序使用自定義的端口號,ignore參數使防火牆忽略端口的應用類型,僅按常規方式處理通信連接。此參數也適用於端口號非21/20的FTP應用)
設備型號 |
| 軟件版本 |
| 設備序列號 |
|
故障級別 |
| 網絡結構 | 如:Layer3 A/P 口型結構 | ||
故障現象 具體描述 |
| ||||
資源佔用 | Get session info |
| |||
Get pre cpu detail |
| ||||
Get memory |
| ||||
狀態信息 | Get config |
| |||
Get system |
| ||||
Get interface |
| ||||
Get nsrp |
| ||||
Get route |
| ||||
Get arp |
| ||||
Get chassis |
| ||||
Get socket |
| ||||
Get pport |
| ||||
日誌查看 | Get log event |
| |||
Get alarm event |
| ||||
Get log system |
| ||||
關聯信息 | Get tech-support | 通過tftp服務器收集後作爲文件附件一併附上 |