最近遇到一个挺有意思的案例:有位用户家里装了某品牌的一体化路由加AP面板,已经稳定用了两年,网络一直很顺畅。可最近不知怎么回事,网络频繁掉线瘫痪,找运营商换了好几次光猫也解决不了问题。
本期分享的正是关于有线网络故障的真实排查案例。
【背景介绍】
这位用户家里的网络设备其实并不复杂,就是一台普通的家用路由器配合几个AP面板。两年间一直运行良好,偏偏最近网络变得极不稳定,只要一断网,路由器的WAN口就会显示“未连接”。

每次断网时,路由器的WAN口指示灯就会变成红色,显示“未联网”状态:

这到底是怎么回事呢?我们一起来深入分析。
【网络拓扑】
拓扑结构其实很简单:光猫连接路由器,路由器再通过有线方式连接各个AP面板,最后由AP为无线客户端提供网络接入。
【排查分析】
第一步:确认整体流量状况
通常在家用路由器中都能查看各个终端的流量使用情况。在路由器的管理界面,我发现了异常:

很明显可以看出,IP地址为192.168.0.17的摄像头设备持续保持着402KB/S的上行速度,也就是3.2Mbps的上传流量。乍看这个数值似乎不算太高,但在所有连接设备中确实显得格外突出,让人不得不怀疑是不是它在背后搞鬼,于是决定先拿它开刀。
第二步:将可疑终端拉入黑名单
为了验证是不是这个摄像头在作祟,我把它加入了网络黑名单进行观察:

果然,处理掉这个摄像头后,整个网络立刻就恢复了正常!

进一步测试证实,一旦将该摄像头从黑名单中移除,全网又会因为它的接入而陷入瘫痪。真相终于水落石出。
第三步:抓包确认终端行为
那么问题来了,仅仅3.2Mbps的上行流量并不算高,怎么会把整个网络搞垮呢?于是我们进行了抓包分析,发现这个摄像头正以每秒7000个数据包的速率,向公网IP 223.104.79.53发送长度仅为66字节的UDP小包:


所以从报文分析来看,真正拖垮家庭宽带的并非3.2Mbps的上行流量,而是高达7000pps的数据包发送频率。
【原理及解决方案】
问题根源:内网摄像头持续疯狂发送上行数据,发包频率高达7000pps(每秒7000个数据包),严重消耗了宽带处理资源。
解决方案:将该异常终端永久加入网络黑名单。
