Java程序导致CPU打满如何排查
一、哪些情况会导致Java程序CPU打满?
在开始排查前,我们先了解可能导致Java应用CPU使用率飙升的常见原因:
-
死循环或无限递归
- 特征:单个线程持续占用一个CPU核心,CPU使用率接近100%。
- 场景:代码逻辑错误、条件判断失误导致循环无法退出。
-
高复杂度算法处理大量数据
- 特征:CPU使用率随数据量线性或指数级上升。
- 场景:如未优化的排序、递归遍历、大数据计算等。
-
线程阻塞与唤醒风暴(Lock Contention)
- 特征:大量线程在
RUNNABLE和BLOCKED状态间频繁切换,引发大量上下文切换。 - 场景:锁竞争激烈、synchronized或ReentrantLock使用不当。
- 特征:大量线程在
-
线程池配置不合理
- 特征:线程数过多,导致上下文切换开销巨大,CPU资源被调度消耗。
- 场景:核心线程数、最大线程数设置过大,或队列策略不合理。
-
频繁GC(垃圾回收)
- 特征:GC线程占用大量CPU,尤其是Full GC频繁触发。
- 场景:内存泄漏、堆内存设置不合理、对象创建过快。
此外,还有如正则表达式回溯、JNI调用、频繁反射等也可能导致CPU飙升。
二、环境准备:模拟CPU打满场景
为了演示排查过程,我们先编写一段模拟CPU打满的Java代码:
// Cpu100DemoApplication.java
public class Cpu100DemoApplication {public static void main(String[] args) {int coreCount = Runtime.getRuntime().availableProcessors();System.out.println("CPU核心数:" + coreCount);for (int i = 0; i < coreCount; i++) {new Thread(() -> {while (true) {// 死循环空转,持续占用CPU}}, "cpu-eater-thread-" + i).start();}}
}
操作步骤:
# 1. 编译
javac Cpu100DemoApplication.java# 2. 创建 MANIFEST
mkdir -p META-INF
cat > META-INF/MANIFEST.MF << 'EOF'
Manifest-Version: 1.0
Main-Class: Cpu100DemoApplication
Created-By: lyc
EOF# 3. 打包
jar cvfm Cpu100Demo.jar META-INF/MANIFEST.MF Cpu100DemoApplication.class# 4. 运行测试
java -jar Cpu100Demo.jar
此时,程序会为每个CPU核心创建一个死循环线程,模拟CPU打满场景。
三、方式一:使用 top + jstack 定位问题
这是最基础、最经典的排查方式,适用于所有Linux环境,无需额外工具。
步骤1:使用 top 查看进程CPU使用情况
top
观察输出,重点关注:
- PID:进程ID
- %CPU:CPU使用率(多核系统下可能超过100%)
- %MEM:内存使用率
例如:
PID %CPU %MEM COMMAND
21423 194.0 10.2 java -jar cpu-demo.jar
说明:我的服务器是2核,因此CPU最大使用率为200%。194%的使用率已接近打满,说明进程 21423 是问题源头。
步骤2:查看进程中各线程的CPU使用情况
使用 top -H 查看线程级CPU占用:
top -H -p 21423
输出中会列出该进程的所有线程,找到CPU使用率最高的几个线程,例如:
PID %CPU COMMAND
21444 97.0 java
21445 96.5 java
这两个线程ID(21444、21445)极有可能是问题线程。
步骤3:将线程ID转换为16进制
JVM线程堆栈中的线程ID(nid)是16进制的,需转换:
printf '%x\n' 14898 # 输出:3a32
printf '%x\n' 21445 # 输出:53c5
记住这两个值:3a32 和 53c5。
步骤4:使用 jstack 查看线程堆栈
执行命令获取进程的线程快照:
jstack -l 21423 > jstack.log
打开日志文件,搜索 cpu-eater
"cpu-eater-thread-0" #14 prio=5 os_prio=0 cpu=390259.69ms elapsed=395.52s tid=0x0000558fec247c50 nid=0x53c2 runnable [0x00007f2288f78000]java.lang.Thread.State: RUNNABLEat Cpu100DemoApplication.lambda$main$0(Cpu100DemoApplication.java:8)at Cpu100DemoApplication$$Lambda$1/0x0000000800c00a08.run(Unknown Source)at java.lang.Thread.run(java.base@17.0.0.1/Thread.java:833)
定位成功! 问题出现在 Cpu100DemoApplication.java 死循环代码。
四、方式二:使用 Arthas 快速诊断
Arthas 是阿里巴巴开源的Java诊断工具,被誉为“Java程序员的瑞士军刀”。它无需修改代码,即可实时监控、诊断线上应用。
1. 安装与启动
# 下载
curl -O https://arthas.aliyun.com/arthas-boot.jar# 启动
java -jar arthas-boot.jar
启动后,Arthas会列出当前机器上所有Java进程:
* [1]: 3439 org.elasticsearch.bootstrap.Elasticsearch[2]: 21423 Cpu100Demo.jar
输入进程ID(如 2),回车进入监控界面。
2. 使用 thread 命令定位高CPU线程
# 查看CPU使用率最高的5个线程
thread -n 5
输出示例:
"cpu-eater-thread-3" Id=17 cpuUsage=99.95% deltaTime=210ms time=929934ms RUNNABLEat app//Cpu100DemoApplication.lambda$main$0(Cpu100DemoApplication.java:8)at app//Cpu100DemoApplication$$Lambda$1/0x0000000800c00a08.run(Unknown Source)at java.base@17.0.0.1/java.lang.Thread.run(Thread.java:833)"cpu-eater-thread-4" Id=18 cpuUsage=99.89% deltaTime=210ms time=930931ms RUNNABLEat app//Cpu100DemoApplication.lambda$main$0(Cpu100DemoApplication.java:8)at app//Cpu100DemoApplication$$Lambda$1/0x0000000800c00a08.run(Unknown Source)at java.base@17.0.0.1/java.lang.Thread.run(Thread.java:833)
无需转换进制,直接显示CPU使用率和代码位置,定位问题更直观、更高效!
3. Arthas的其他强大功能(扩展)
watch:监控方法的入参、返回值、异常trace:追踪方法调用链,分析性能瓶颈stack:查看指定方法的调用栈dashboard:实时监控系统、JVM、线程、内存等状态jvm:查看JVM信息ognl:执行任意OGNL表达式,调用对象方法
Arthas让线上问题排查从“盲人摸象”变为“全局掌控”。
五、总结与建议
| 方法 | 优点 | 缺点 | 推荐指数 |
|---|---|---|---|
top + jstack | 原生工具,无需安装,通用性强 | 操作繁琐,需手动转换进制,信息不够直观 | ⭐⭐⭐⭐ |
| Arthas | 功能强大,定位迅速,交互友好,支持热修复 | 需额外安装,有一定学习成本 | ⭐⭐⭐⭐⭐ |
最佳实践建议:
- 日常开发中优先使用Arthas,提升排查效率。
- 掌握
top + jstack作为基础技能,应对无外网或受限环境。 - 定期监控系统指标,结合Prometheus + Grafana实现告警。
- 优化代码逻辑,避免死循环、高复杂度算法、过度创建线程。
- 合理配置JVM参数和线程池,避免资源浪费。
结语:
CPU打满并不可怕,关键在于快速定位、精准修复。掌握本文介绍的两种排查方式,你将能在面对线上性能问题时从容不迫,成为团队中不可或缺的技术骨干。
Arthas官网:https://arthas.aliyun.com
推荐阅读:jstack、jstat、jmap、jcmd等JDK自带工具的使用。
