天融信防火墙维护指南
一、综述
防火墙作为企业核心网络中的关键设备,需要为所有进出网络的信息流提供安全保护,对于企业关键的实时业务系统,要求网络能够提供7*24小时的不间断保护,保持防火墙系统可靠运行及在故障情况下快速诊断恢复成为维护人员的工作重点。
天融信防火墙提供了丰富的冗余保护机制和故障诊断、排查方法,通过日常管理维护可以使防火墙运行在可靠状态,在故障情况下通过有效故障排除路径能够在最短时间内恢复网络运行。本文对天融信防火墙日常维护进行较系统的总结,为防火墙维护人员提供设备运维指导。
二、天融信防火墙日常维护
围绕防火墙可靠运行和出现故障时能够快速恢复为目标,天融信防火墙维护主要思路为:通过积极主动的日常维护将故障隐患消除在萌芽状态;故障发生时,使用恰当的诊断机制和有效的故障排查方法及时恢复网络运行;故障处理后及时进行总结与改进避免故障再次发生。 常规维护:
在防火墙的日常维护中,通过对防火墙进行健康检查,能够实时了解天融信防火墙运行状况,检测相关告警信息,提前发现并消除网络异常和潜在故障隐患,以确保设备始终处于正常工作状态。
1、日常维护过程中,需要重点检查以下几个关键信息:
连接数:如当前的连接数达到或接近系统最大值,将导致新会话不能及时建立连接,此时已经建立连接的通讯虽不会造成影响;但仅当现有的连接拆除后,释放出来的资源才可供新建连接使用。维护建议:当当前连接数正常使用至85%时,需要考虑设备容量限制并及时升级,以避免因设备容量不足影响业务拓展。
CPU: 天融信防火墙是高性能的防火墙,正常工作状态下防火墙CPU使用率应保
第 1 页 共 13 页
持在10%以下,如出现CPU利用率过高情况需给予足够重视,应检查连接数使用情况和各类告警信息,并检查网络中是否存在攻击流量。通常情况下CPU利用率过高往往与攻击有关,可通过正确设置系统参数、攻击防护的对应选项进行防范。
内存: 天融信防火墙对内存的使用把握得十分准确,正常情况下,内存的使用率应基本保持稳定,不会出现较大的浮动。如果出现内存使用率过高(>90%)时,可以查看连接数情况,或通过实时监控功能检查网络中是否存在异常流量和攻击流量。
2、在业务使用高峰时段检查防火墙关键资源(如:Cpu、连接数、内存和接口流量)等使用情况,建立网络中业务流量对设备资源使用的基准指标,为今后确认网络是否处于正常运行状态提供参照依据。当连接数数量超过平常基准指标20%时,需通过实时监控检查当前网络是否存在异常流量。当Cpu占用超过平常基准指标20%时,需查看异常流量、定位异常主机、检查策略是否优化。
3、防火墙健康检查信息表:
设备型号 设备用途 检查对象 连接数 CPU 内存 Interface 路由表 HA状态 LED指示灯 设备运行 连接数 软件版本 主用/备用 序列号 工作模式 透明/路由/混合 检查结果 备注 XX区防火墙 设备状态 相关信息 2
参考基线 Cpu 内存 接口流量 业务类型 常规维护建议:
1、配置管理IP地址,指定专用终端管理防火墙;
2、更改默认账号和口令,不建议使用缺省的账号、密码管理防火墙;严格按照实际使用需求开放防火墙的相应的管理权限,并且管理权限的开放控制粒度越细越安全;设置两级管理员账号并定期变更口令;仅容许使用SSH和SSL方式登陆防火墙进行管理维护。
3、深入理解网络中业务类型和流量特征,持续优化防火墙策略。整理出完整网络环境视图(网络端口、互联地址、防护网段、网络流向、策略表、应用类型等),以便网络异常时快速定位故障。
4、整理一份上下行交换机配置备份文档(调整其中的端口地址和路由指向),提供备用网络连线。防止防火墙发生硬件故障时能够快速旁路防火墙,保证业务正常使用。
5、在日常维护中建立防火墙资源使用参考基线,为判断网络异常提供参考依据。 6、重视并了解防火墙产生的每一个故障告警信息,在第一时间修复故障隐患。 7、建立设备运行档案,为配置变更、事件处理提供完整的维护记录,定期评估配置、策略和路由是否优化。
8、故障设想和故障处理演练:日常维护工作中需考虑到网络各环节可能出现的问题和应对措施,条件允许情况下,可以结合网络环境演练发生各类故障时的处理流程,如:设备出现故障,网线故障及交换机故障时的路径保护切换。 9、设备运行档案表
设备型号 软件版本 设备序列号 3
设备用途 保修期限 XX区防火墙 设备状态 主用/备用 工作模式 透明/路由/混合 结果 结果 负责人 负责人 供应商联系方式 变更内容 变更原因 配置变更 事件现象 事件处理 处理过程 应急处理
当网络出现故障时,应迅速检查防火墙状态并判断是否存在攻击流量,定位故障是否与防火墙有关。如果故障与防火墙有关,可首先检查防火墙的、地址转换策略、访问控制策略、路由等是否按照实际使用需求配置,检验策略配置是否存在问题。一旦定位防火墙故障,可通过命令进行双机切换,单机环境下发生故障时利用备份的交换机/路由器配置,快速旁路防火墙。在故障明确定位前不要关闭防火墙。 1、
检查设备运行状态
网络出现故障时,应快速判断防火墙设备运行状态,通过管理器登陆到防火墙上,快速查看CPU、内存、连接数、Interface以及相应信息,初步排除防火墙硬件故障并判断是否存在攻击行为。 2、
跟踪防火墙对数据包处理情况
如果出现部分网络无法正常访问,顺序检查接口状态、路由和策略配置是否有
4
误,在确认上述配置无误后,通过tcpdump命令检查防火墙对特定网段数据报处理情况。部分地址无法通过防火墙往往与策略配置有关。 3、
检查是否存在攻击流量
通过实时监控确认是否有异常流量,同时在上行交换机中通过端口镜像捕获进出网络的数据包,据此确认异常流量和攻击类型,并在选项设置、入侵防护等项目中启用对应防护措施来屏蔽攻击流量。 4、
检查HA工作状态
检查HA工作状态,进一步确认引起切换的原因,引起HA切换原因通常为链路故障,交换机端口故障,设备断电或重启。设备运行时务请不要断开HA心跳线缆。 5、
防火墙发生故障时处理方法
如果出现以下情况可初步判断防火墙硬件或系统存在故障:无法使用console口
登陆防火墙,防火墙反复启动、无法建立ARP表、接口状态始终为Down、无法进行配置调整等现象。为快速恢复业务,可通过调整上下行设备路由指向,快速将防火墙旁路,同时联系供应商进行故障诊断。
总结改进
故障处理后的总结与改进是进一步巩固网络可靠性的必要环节,有效的总结能够避免很多网络故障再次发生。
1、在故障解决后,需要进一步总结故障产生原因,并确认该故障已经得到修复,避免故障重复发生。
2、条件容许的情况下,构建防火墙业务测试环境,对所有需要调整的配置参数在上线前进行测试评估,避免因配置调整带来新的故障隐患。
3、分析网络可能存在的薄弱环节和潜在隐患,通过技术论证和测试验证来修复隐患。
故障处理工具
天融信防火墙提供灵活多样的维护方式,其中故障处理时最有用的两个工具是实时监控功能和tcpdump,实时监控功能用于实时查看网络当前的连接情况,可以快速定位存在异常流量的IP主机或攻击源主机,tcpdump用于跟踪防火墙对指定包的
5
处理。下面简要介绍一下两个工具的使用方法。
Tcpdump: 捕获进出防火墙的数据包
1、仅在老4k系统和TOS中的.1平台和.8平台(猎豹)支持TCPDUMP命令; 2、老4k系统直接在串口登陆界面下或telnet到防火墙界面下,即可使用tcpdump命令;TOS中的.1平台和.8平台在串口登陆或telnet登陆后,先敲system回车,进入系统目录才可以使用tcpdump命令。 3、Tcpdump语法中存在三种主要的关键字:
第一种是关于类型的关键字,主要包括host,net,port, 例如 host 210.27.48.2,指明 210.27.48.2是一台主机,net 202.0.0.0 指明 202.0.0.0是一个网络地址,port 23 指明端口号是23.如果没有指定类型,缺省的类型是host. 第二种是确定传输方向的关键字,主要包括src , dst ,dst or src, dst and src ,这些关键字指明了传输的方向。举例说明,src 210.27.48.2 ,指明ip包中源地址是210.27.48.2 , dst net 202.0.0.0 指明目的网络地址是202.0.0.0 .如果没有指明方向关键字,则缺省是src or dst关键字。
第三种是协议的关键字,主要包括fddi,ip,arp,rarp,tcp,udp等类型。Fddi指明是在FDDI(分布式光纤数据接口网络)上的特定的网络协议,实际上它是\"ether\"的别名,fddi和ether具有类似的源地址和目的地址,所以可以将fddi协议包当作ether的包进行处理和分析。其他的几个关键字就是指明了监听的包的协议内容。如果没有指定任何协议,则tcpdump将会监听所有协议的信息包。 4、 逻辑运算
除了这三种类型的关键字之外,其他重要的关键字如下:gateway, broadcast,less,greater,还有三种逻辑运算,取非运算是 'not '
'! ', 与运算是'and','&&';或运算 是'or' ,'││';这些关键字可以组合起来构成强大的组合条件来满足人们的需要,下面举几个例子来说明。 5、使用例子:
例1:在eth1口抓包,只显示地址为10.1.1.1和icmp协议的报文。 Tcpdump –i eth1 host 10.1.1.1 and icmp
6
例2:在所有的接口抓包,不显示4000端口的管理报文,和23端口的telnet报文。
Tcpdump –i any not port 4000 and not port 23 (在同时管理的时候很实用)
例3:在eth1口抓包,显示地址为211.1.1.1或10.1.1.1的报文。
Tcpdump –i eth1 host 211.1.1.1 or host 10.1.1.1 (针对MAP前后的地址同时抓包定位时非常实用)
例4:在所有的接口抓包,显示地址为10.1.1.1报文。
Tcpdump |grep host 10.1.1.1 (在adls环境中非常实用,封装了PPPOE的报文也能抓到,但是TOS不支持grep的参数了)
在tos系统中,X86的平台下才有抓包的工具,-n表示不需要域名解析,加快抓包的速度。
并且-evv比老的4k系统中,能抓到更多的信息,其中还包括校验和。
例5:System tcpdump –i any –evv -n (TOS系统中最后必须加-n的参数,才能保证抓包的速度)
例6:System tcpdump –i ipsec0 -n (TOS支持在ipsec0中抓包,来判断数据流是否进入隧道)
例7:System tcpdump –i ppp0 -n (TOS支持在ppp0中抓包,来判断数据流是否进入PPPoE的封装)
实时监控功能:实时查看进出防火墙的连接情况
1、 天融信防火墙支持实时监控功能,可以实时了解当前经过防火墙的连接情况,
其可以查看的内容有需:源IP地址、目的IP地址、源端口、目的端口、连接建立时间、接收的流量、发送的流量、NAT转换后的地址、连接属性等等内容。 2、查看实时监控需要在防火墙上开放相应的权限,老4K系统开放权限过程为:选
7
项设置-安全设备登陆控制-增加一个客户类型为监控器的管理项即可(具体参考老4K用户手册);TOS防火墙开放监控权限过程为:系统-开放服务-增加一个权限为GUI管理的项目即可(具体参见TOS防火墙用户手册);
3、老4K防火墙直接通过集中管理器-实时监控-连接信息-启动监控即可,TOS系
统需要通过管理中心的安全工具登陆防火墙,再启用连接监控-启动即可; 4、实时监控功能支持按照各个监控内容排序显示,通过实时监控功能可以很快的定
位处异常主机。
5、实时监控可以设置监控的过滤条件(具体见用户使用手册);
三、策略配置与优化
防火墙策略优化与调整是网络维护工作的重要内容,策略是否优化将对设备运行性能产生显著影响。考虑到企业中业务流向复杂、业务种类往往比较多,因此建议在设置策略时尽量保证统一规划以提高设置效率,提高可读性,降低维护难度。 策略配置与维护需要注意地方有:
试运行阶段最后一条策略定义为所有访问允许并记录日志,以便在不影响业
务的情况下找漏补遗;当确定把所有的业务流量都调查清楚并放行后,可将最后一条定义为所有访问禁止并记录日志,以便在试运行阶段观察非法流量行踪。试运行阶段结束后,再将最后一条“禁止所有访问”策略删除。 防火墙按从上至下顺序搜索策略表进行策略匹配,策略顺序对连接建立速度
会有影响,建议将流量大的应用和延时敏感应用放于策略表的顶部,将较为特殊的策略定位在不太特殊的策略上面。
策略配置中的Log(记录日志)选项可以有效进行记录、排错等工作,但启用此
功能会耗用部分资源。建议在业务量大的网络上有选择采用,或仅在必要时采用。
简化的策略表不仅便于维护,而且有助于快速匹配。尽量保持策略表简洁和
简短,规则越多越容易犯错误。通过定义地址组和服务组可以将多个单一策略合并到一条组合策略中。
策略用于区域间单方向网络访问控制。如果源区域和目的区域不同,则防火
8
墙在区域间策略表中执行策略查找。如果源区域和目的区域相同并启用区域内阻断,则防火墙在区域内部策略表中执行策略查找。如果在区域间或区域内策略表中没有找到匹配策略,则安全设备会检查相关区域的缺省访问权限以查找匹配策略。
策略变更控制。组织好策略规则后,应写上注释并及时更新。注释可以帮助
管理员了解每条策略的用途,对策略理解得越全面,错误配置的可能性就越小。如果防火墙有多个管理员,建议策略调整时,将变更者、变更具体时间、变更原因加入注释中,便于后续跟踪维护。
四、攻击防御
天融信防火墙利用入侵防护功能抵御互联网上流行的DoS/DDoS的攻击,一些流行的攻击手法有Synflood,Udpflood,Smurf,Ping of Death,Land Attack等,防火墙在抵御这些攻击时,会消耗防火墙一部分的系统资源,所以,在网络正常情况下,一般不推荐使用,但是当网络确实存在这些类型的攻击数据流时,我们可以适当开启这些抗攻击选项,可以有效的保护各种应用服务器。如果希望开启其它选项,在开启这些防护功能前有几个因素需要考虑: • 抵御攻击的功能会占用防火墙部分CPU资源;
• 自行开发的一些应用程序中,可能存在部分不规范的数据包格式; • 网络环境中可能存在非常规性设计。
如果因选择过多的防攻击选项而大幅降低了防火墙处理能力,则会影响正常网络处理的性能;如果自行开发的程序不规范,可能会被IP数据包协议异常的攻击选项屏蔽;非常规的网络设计也会出现合法流量被屏蔽问题。
要想有效发挥天融信防火墙的攻击防御功能,需要对网络中流量和协议类型有比较充分的认识,同时要理解每一个防御选项的具体含义,避免引发无谓的网络故障。防攻击选项的启用需要采用逐步逼近的方式,一次仅启用一个防攻击选项,然后观察设备资源占用情况和防御结果,在确认运行正常后再考虑按需启用另一个选项。建议采用以下顺序渐进实施防攻击选项: 设置防范DDoS Flood攻击选项
9
根据掌握的正常运行时的网络流量、会话数量以及数据包传输量的值,在防
范DDoS的选项上添加20%的余量作为阀值。
如果要设置防范IP协议层的选项,需在深入了解网络环境后,再将IP协议
和网络层的攻击选项逐步选中。
设置防范应用层的选项,在了解应用层的需求以及客户化程序的编程标准
后,如不采用ActiveX控件,可以选择这些基于应用层的防攻击选项。 为检查网络中是否存在攻击流量,可以临时打开实时监控功能,查看流量特
征,判断是否为DOS/DDOS攻击,确认攻击类型。
在设置入侵防御选项的过程中,应密切注意防火墙CPU的利用率,以及相关
应用的使用情况;如果出现异常(CPU利用率偏高了或应用不能通过),则立刻需要取消相关的选项。
建议正常时期不启用入侵防御选项,仅在网络出现异常流量时再打开对应的
防御功能。
五、特殊应用处理 长连接应用处理
在金融行业网络中经常会遇到长连接应用(一般为数据库等应用),基于状态检测机制的防火墙在处理此类应用时要加以注意。缺省情况下,天融信防火墙对每一个会话的连接保持时间是300秒(TCP)和30秒(UDP)(不同系统平台、不同版本会有不同),超时后状态表项将会被清除。所以在实施长连接应用策略时要配置合适的timeout值,以满足长连接应用的要求。配置常连接应用需注意地方有:
如果在长连接应用中已经设计了心跳维持机制(如每隔几分钟,客户端与服务端
之间传送心跳以维持会话),此时无需防火墙上设置长连接属性,使用默认配置即可。
只针对的确需要的应用启用长连接属性,一般的应用不要使用长连接,以节省防
火墙的系统资源。
由于设置长连接属性后,防火墙系统本身不再干预该连接情况,所以可能会出现
10
一些特殊情况(应用服务器端异常死机等)造成该连接僵死而长期占用防火墙的资源,因此,建议经常实时监控防火墙的长连接情况,一旦发现这种僵死的长连接过多,则应该在合适的时间手动重启防火墙系统,以释放防火墙的资源。
不规范TCP应用处理
正常TCP应用连接建立需要3次握手,然而某些用户定制的应用程序因开发规范不严谨或特殊需要,存在类似SYN没有置位的连接请求,对于这类不严谨的通讯处理应加以特别注意,因为天融信防火墙在默认情况下,对这种不严谨的TCP连接视为非法连接并将连接阻断。建议跟踪网络中每类业务的通讯状况,在某些应用发生通讯障碍时,通过tcpdump抓包来判断是否是防火墙拒绝了不严谨的TCP 包,确认后通过设置fw_si off(老4K,版本2.6.40)或 network session session-integrity off(TOS平台,版本3.2.100.010.1)的命令来使防火墙取消这种防范机制。
11
六、附录:天融信防火墙外部故障信息报告
故障名称: 故障提交时间: 故障优先级: 现场工程师的联系方式(E-mail和电话): 直接负责处理该故障的技服人员(北京): 防火墙产品型号(定制版本注意标明主板型号、内 存) 是否有扩展卡 防火墙软件版本: 直接负责处理该故障的技服人员(北京)对故障情况补充说明: 网络拓朴图:(以文件名的形式粘贴, 附件提交Bugzilla) 网络拓朴说明: 现场工程师对故障描述:包括出现故障时cpu利用率是多少,连接数有多少,内存使用情况,用户的主要应用描述一下,如果是特殊应用导致问题一定要描述清楚,尽可能多提供应用信息。 现场工程师对故障的处理手段和判断方法: 出现故障状况下,在防火墙内、外网口的抓包数据:(以文件名的形式粘贴,附件提交Bugzilla) 防火墙配置文件:(以文件名的形式粘贴,附件提交Bugzilla) 交换机、路由器主要配置说明:(配置可以文件名的形式粘贴,附件提交Bugzilla) 调试信息:(以文件名的形式粘贴, 附件提交Bugzilla) Console口打印信息 日志信息:(以文件名的形式粘贴,附件提交Bugzilla) 服务器和客户端抓包情况 如果是设备死机或者重启的情况,最好提供打印信息、健康记录和说明大概多长时间出现一次 为加快后台部门对故障的处理,上项目,黑色字体是必写项目,蓝色字体为尽量提供项目。
12
七、参考文档
1,Netscreen 防火墙维护指南 2,Tcpdump 的用法
3,Tcpdump常用命令及基础故障定位3板斧
13
因篇幅问题不能全部显示,请点此查看更多更全内容