线上jvm假死问题排查
1.线上告警接口超时
看接口是用户服务,查看nacos服务实例,发现有一个节点已经下线了
3.找到对应节点所在服务器,jps -l 命令发现用户服务还在,初步判断是假死
4.使用 jstat -gc 进程id 1000 每秒打印gc情况,发现频繁full gc,平均3秒一次,然后每次gc时间大概3~4秒
5.jmap -heap 进程id发现新生代和老年代都满了,紧急生成堆转储 jmap -dump:format=b,file=heapdump.hprof ,然后重启服务
6.使用MAT分析堆栈信息,排查内存泄漏的问题,看到分析是mysql查询时有占用了1.1G左右,jvm才配置了2G,当时想到可能是无条件查询导致查询了大量数据
7.继续排查看到线程的堆栈指向的业务代码是查询用户,看了下相关逻辑是有传手机号码查询用户的
8.由于是查询数据库占用了大量堆内存,所以判断当时查询肯定是很慢的,所以看了阿里云数据库的慢sql记录,果然发现查询返回了150多万数据
9.看了具体SQL是手机号码传1,使用的是模糊匹配,导致所有用户都查出来了
select * from user where mobile LIKE '%1%'
10.调整代码为不使用模糊搜索,解决问题
select * from user where mobile = '1'