客户是一家专注于机器人集成解决方案的公司,项目上线初期运行一直平稳,但某天突然出现无线接入异常的情况,主要表现为终端设备频繁断开连接、自动重连、再次断开、再次重连……这种恶性循环持续不断,即使重启AP设备也未能解决问题。
本期分享的案例聚焦于无线网络中的连接故障排查。
背景介绍
该客户主要从事工业机器人系统集成业务,其无线网络采用了某品牌AP的独立组网模式。移动小车通过安装的无线通信模块CPE接入核心网络,整体拓扑结构十分简洁明了:
服务器群—核心交换机—AP与CPE—AGV移动小车
就在系统运行良好的情况下,突然出现了无线连接异常,终端设备持续处于“断开-重连-断开-重连”的异常状态,重启AP后问题依然存在:

这种情况直接导致AGV设备通信中断,严重影响了生产运营:

下面我们来详细分析这个问题背后的原因。
排查思路
从故障现象来看,这属于典型的批量性频繁断连问题,很大概率与AP设备本身有关。因此我们重点从AP的运行状态和系统日志入手进行分析。
排查分析
(1) 第一步:确认AP配置和负载状况
该AP工作在独立模式下,支持Web管理界面。我们检查了基础配置参数,确认配置无误,接着查看了设备负载情况。确实发现很少有终端能够持续在线超过几分钟,但信号强度充足、协商速率也完全正常:

接下来需要检查是否存在数据泛洪导致无线资源不可用的情况。
(2) 第二步:移除相关终端观察使用情况
考虑到可能是接入负载过大导致的网络拥塞,我们在有线侧将AP独立隔离出来,仅连接一个测试终端,发现问题依旧存在。这说明并非网络泛洪导致的问题。
基于这个现象进一步思考,无线连接频繁断开重连,实际上很可能是无线管理层在关联(associate)和解关联(disassociate)交互过程中出现了问题。那么需要考虑一种可能性:是否存在无线攻击干扰?
(3) 第三步:抓取路由接口报文进行流量分析
常见的无线攻击主要包括deauth和disassoc管理帧攻击两种类型。不论是哪种方式,本质上都是通过“禁止终端接入”或“强制解除关联”来干扰正常通信。从本案例的表现来看,明显属于后一种情况。
历史相关案例>>【真实案例】酒店被投诉了!理由是“无线网络用不了”,乍一看真相竟如此复杂!
而攻击的目标,一种是针对SSID(WIFI名称)、另一种是针对BSSID(固定AP),通常前者最为常见。为了验证SSID是否遭到攻击,我们在原AP上新增加了一个名为“test”的无线信号,发现终端接入后没有再出现掉线情况:

原理及解决方案
问题原因:通过上述分析,真相是现场SSID“XXX AGV”遭到了设备的恶意攻击,属于典型的无线deauth或disassociate管理帧攻击。
解决方案:修改SSID名称使用;同时找出攻击设备,从根源上彻底解决问题。
