当前位置：首页 > news >正文

Java事故排查

news 2025/10/26 17:45:09

rag系列文章目录

文章目录

rag系列文章目录
前言
一、异常现象
二、排查过程
- 1.查看日志
- 2.查询堆栈信息
- 3.查询数据库
- 4.调查栈方法
三、结论
总结

前言

作为一名软件开发人员，经常会遇到各种各样的事故，一般凭借日志就可以定位到异常问题，然后修复测试，即可验证是否解决，这种较为简单的问题。

复杂一点的是，长时间运行出现的问题，比如运行几天之后，程序发生异常，这种不是部署上线后立即发现的，很难排查，但是一般也可以归结为并发性能异常、内存漏洞之类异常。这种情况，日志比较少，需要dump程序的信息，进行分析，以内存泄露为例来说，需要定位到程序中的大对象，然后查看相关代码定位。

还有一类问题，较为困难，也没有日志，内存dump数据也看不出什么，程序一直卡主，无从下手，今天就介绍一种。

一、异常现象

Springboot项目，使用sharding进行分库分表，程序使用mysql作为数据源，上线一直没问题，现在需要切换到postgres进行测试，发现程序一直起不来。

二、排查过程

1.查看日志

首先，检查程序日志，发现驱动报错，很开心，竟然有日志。
在这里插入图片描述
但是很快发现，这个日志并不是导致程序卡主的原因，这个错误反而导致排查的方向走错，浪费了时间。

2.查询堆栈信息

报错日志没有作用，排查没有了方向，为了排查方便，我单独建个项目，只是使用sharding来验证，发现同样的问题，但是这可以方便后续排查。

接下来只能看下程序内部信息，因为并没有内存溢出之类的问题，也无需排查内存dump信息。

接下来想到内存栈信息，看下main线程是不是没有起来，卡主了。

使用jstack命令查看，结果如下：
在这里插入图片描述

3.查询数据库

初次看到stack信息，也是一头雾水，看到main方法好像在正常运行，状态是正常的。最后在查询postgres数据库，那么就想到是不是数据库卡主了呢？

执行以下SQL来查看当前是否有被阻塞的查询以及锁的等待情况：

SELECT pg_stat_activity.pid,pg_stat_activity.query,pg_stat_activity.state,pg_locks.mode,pg_locks.granted,pg_blocking_pids(pg_stat_activity.pid) AS blocking_pids
FROM pg_stat_activity
JOIN pg_locks ON pg_locks.pid = pg_stat_activity.pid
WHERE pg_stat_activity.state = 'active'
AND pg_locks.mode LIKE '%ExclusiveLock%'
AND pg_stat_activity.query NOT LIKE '%pg_stat_activity%'; -- 排除掉这个查询本身

发现数据库查询有点慢，但是呢，好像一直在变化，也不是一个sql一直在卡主。而且把超时时间设置短了，好像不应该是一个大sql导致数据库查询卡主，如果超时了，日志也会打印出来，看起来是好像一直在执行sql查询。