ac日志报ARP-neighbor-failed问题定位过程
客户反馈,公司产品ac+核心交换机+poe交换机+ap的组网,1000多个ap,把一座楼的ap升级为新版本后,ac日志有大量的ARP-neighbor-failed告警信息,内容为to resolve ARP for IP 10.206.255.254 (Interface=eth1),让定位解决。
ac上告警如下图:
询问得知客户的ap和ac在同样网段,配置在10.204.252.0/22这个网段,出问题这个ap的ip为10.204.252.22,网关是10.204.255.254.
发现ap的eth1口报arp neighbor failed,难道eth1口发出arp请求网关mac地址没有回?
已知ap上是高通ipq5018芯片,有一个桥,把无线虚拟ap口athx和eth0,eth1拉在一个桥里
arp -n的截图如下:
物理端口纳入网桥后,三层属性就消失了,变成一个纯二层接口,怎么会有用这个端口去申请arp的现象?图中eth1,hw address是全00,表示没有获得10.205.255.254mac地址。
现在抓一下br-wan,看看本机10.204.252.22是否发出arp请求?
tcpdump -i br-wan -nnev arp[16:2]=0xfd16 抓arp消息的发出源ip后两位是252.22就是0xfd16
截图借用ap的ip是10.204.252.141,同样的问题
发现抓br-wan三分钟没有抓包任何包,但抓any口发现有不间断的arp请求发出,如上图。
抓br-wan的arp和arp响应发现
tcpdump -i any -nnev arp[16:2]=0xfc16 or arp[26:2]=0xfc16
结果发现没有arp request消息发出,但有大量的reply消息
奇怪,建议客户在poe交换机上抓包,看看是否有arp的请求消息?
结果如下:显示过滤arp contains fd16 and arp contains fffe
结果如上图,poe交换机上抓包显示arp请求和应答都有
判断ap上是否从eth1口发出arp请求,在ap上执行tcpdump -i eth1的包
借用10.204.252.141上抓包说明问题
tcpdump -i eth1 -nnevxx arp[16:2]=0xfd8d
发现eth1口有大量arp请求发出,eth1口是桥的一个口,应该是纯二层接口,现在却在此口上收发用arp发出请求消息,显示有三层功能,处理存在问题。
联系研发后,反馈程序有问题,暂时用关闭快转来解决。版本后面修复。
总结:桥接口下硬件程序处理有问题,造成日志错报。