XXX公司JUNIPER防火墙系统

 

1      故障现象
XXX公司防火墙双机结构如下所示:
 
新部署的JUNPER SRX3400防火墙双机系统通过全冗余的架构分别连接到地市核心设备和地市出口设备。两台SRX3400之间通过JSRP冗余协议实现相互之间的互为备份和故障时的快速切换。
正常情况下,流量均通过SRX3400-A防火墙处理,当SRX3400-A侦测到接口链路中断、或目的IP地址不能访问、或者SRX3400-A断电时,将快速切换到备用的SRX3400-B防火墙上,此时所有的流量将通过SRX3400-B处理。
经过分析,此次故障发生时,主用设备由于异常原因(SPC防火墙业务处理模块硬件故障)导致不能正常转发数据,而主用设备的SFB模块也出现了硬件故障,使得心跳线路侦测异常,导致备用设备处于disable状态,未能切换到主用状态接管流量,因此主备用设备均处于不转发数据状态,从而导致业务中断。
2      原因分析
经过现场获取的日志和设备状况分析,确认此次故障的原因在于主用防火墙SRX3400-A的SPC业务处理模块和交换矩阵SFB模块同时出现了硬件故障,由于防火墙的数据处理和转发均通过SPC模块实现,而主备防火墙之间的HA心跳线路是通过SFB上的HA接口实现相互之间的HA数据互通、状态侦测和同步等的处理,因此:
主用SRX3400-A的SPC模块硬件故障导致SRX-A的停止转发;
同时主用SRX3400-A的SFB矩阵模块硬件故障导致双机之间的HA接口中断,从而导致备用防火墙无法判断主用防火墙的状态,为了避免防火墙双机出现双主的问题,因此备机自动转为disable状态;
此时两台SRX3400均处于不转发数据状态。
此次故障是在非常特殊的情况(主用设备的SPC模块和SFB模块同一时间出现硬件故障)下的极个别问题,正常情况下双机都能够实现快速的故障切换机制,包括了设备故障、设备断电,端口Down以及目的IP地址无法到达等,并相应进行了HA双机的测试。因此在其他地市不会出现铜陵的故障情况。
3      处理方案
针对此次故障的处理方案是:
将SRX-B备用设备重启,进入正常的转发状态,提供单机状态下的数据报文处理;
尽快更换SRX-A上的SPC和SFB硬件模块,恢复正常的双机热备状态。具体的操作过程如下所示:
目前的工作状态为,原有的node0节点的设备因故障已经断电,原有的node1节点的设备从备用设备转为主用设备,正常转发数据;
备份现有的node1上的设备配置;此过程不影响业务和应用;
更换node0设备上的SPC模块并测试状态是否正常,此过程不影响业务和应用;
修改node0设备的配置,与在用的node1设备保持一致,此过程不影响业务和应用;
将node0设备关机,按照原有设计拓扑,连接node0和node1上的所有接口的线路,此过程不影响业务和应用;
将node0设备加电启动,待node0设备启动正常后,查看双机cluster的状态是否正常,此过程可能会影响业务和应用,时间在10分种以内;
将node0和node1实现主备切换,此过程不影响业务和应用;
查看双机cluster状态,测试业务和应用。
4      应急预案
今后,针对类似故障的应急处理预案是:
出现双机状态异常时,判断备用设备是否处于Disable状态;
首先重启主用设备,判断是否能正常转发,
如主用设备重启后不能正常转发,则重启处于Disable状态的备用设备,通过备用设备单机提供转发服务。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章