进入路由器的网络异常
(进入路由器显示网络异常)
早上刚到公司,刚开始刷头条,一个客户的电话来了。
客户:我们的网络有问题,出口路由器间歇访问,上外网不受影响,可以帮助远程查看吗?
我:好吧,给远程
故障现象:电脑ping出口路由器时,时断时续,SSH路由器无法连接。
截图如下:
故障现象截图
客户存档核心区域拓扑图如下:
客户核心区网络拓扑
排查过程:
1.根据故障现象和以往的工作经验,首先怀疑网络中可能存在环路。一个典型的环路现象是导致访问核心交换机或其他设备ping包会有大延迟或连续丢包。
核心交换机调查:
查看核心交换机的日志信息,发现网络环境中确实存在环路。通过日志提示,循序渐进的调查解决了环路的影响。但解决后,问题依然存在。问题是由其他原因引起的,位。
问题不在核心交换机上,而是利用网络中常用的逐级排查思路进行持续定位。
2、出口路由器调查:
由于是ping路由器内网口地址异常,需要确认,出现异常时,ping包是否到达路由器内网口。
因为不能通过SSH通过访问路由器,选择通过console口登录设备。登录路由器后,先看设备的日志是否有异常(通常网络异常时,日志会有更直观的提示)。经查询,路由器日志无异常。查看设备的流程信息,找到用户ping包可以正常到达路由器内网,路由器可以正常回复。至此,排除路由器问题。
3、防火墙排查:
3.1.首先检查防火墙的安全策略,确认是否有安全策略影响ping包数据转发。确认所有策略都不影响数据转发。
3.2、利用wireshark抓包工具,通过分析防火墙设备的上下联口,发现ping包的转发没有异常,消除了防火墙的问题。如下图所示:
防火墙抓包页面
防火墙上的接口ping包分析页面
防火墙下接口ping包分析页面
4、核心交换机抓包分析
由于上联路由器和防火墙设备无异常,然后继续检查核心是否正常收到ping包的回包。核心交换机上联口抓包后,确认核心交换机只发包,不回包。抓包结果如下图所示,ping包提示未回复报文:
核心交换机上联口抓包结果
5、重新梳理现场拓扑
到目前为止,这很奇怪。根据存档拓扑图,防火墙与核心交换机通过光纤跳线连接。抓包结果如下图所示,ping包提示未回复报文:
核心交换机上联口抓包结果
5、
重新梳理现场拓扑
到目前为止,这很奇怪。根据存档拓扑图,防火墙与核心交换机通过光纤跳线连接。光纤跳线丢弃了数据吗?但只是丢弃了一些数据,链路故障,应该全部丢弃。与客户的运维工程师沟通后,发现客户最近在测量某厂家WAF,位于核心交换机和防火墙之间。这里的基本判断是因为制造商WAF导致数据丢弃的策略。指导运维工程师跳过WAF后,ping包正常。
现场实际拓扑结构增加了测试WAF及WAF的对应位置
最题终于解决了:在联系了技术工程师后,运维工程师进行了最终定位。问题是路由器内网口数据量大,WAF确定网络受到攻击,路由器是攻击源,将路由器内的网口地址列入动态黑名单。由WAF在将路由器内的网口地址加入白名单后,工程师解决了问题。其实问题不是很麻烦,但是因为不在现场,不了解现场的实际情况,走了很多弯路。以后有类似问题的时候,可以多久记性,提前和客户沟通,看看网络最近有没有做过什么更快的定位问题。