当前位置：首页 > news >正文

Java程序导致CPU打满如何排查

news 2025/11/6 11:36:29

一、哪些情况会导致Java程序CPU打满？

在开始排查前，我们先了解可能导致Java应用CPU使用率飙升的常见原因：

死循环或无限递归
- 特征：单个线程持续占用一个CPU核心，CPU使用率接近100%。
- 场景：代码逻辑错误、条件判断失误导致循环无法退出。
高复杂度算法处理大量数据
- 特征：CPU使用率随数据量线性或指数级上升。
- 场景：如未优化的排序、递归遍历、大数据计算等。
线程阻塞与唤醒风暴（Lock Contention）
- 特征：大量线程在 RUNNABLE 和 BLOCKED 状态间频繁切换，引发大量上下文切换。
- 场景：锁竞争激烈、synchronized或ReentrantLock使用不当。
线程池配置不合理
- 特征：线程数过多，导致上下文切换开销巨大，CPU资源被调度消耗。
- 场景：核心线程数、最大线程数设置过大，或队列策略不合理。
频繁GC（垃圾回收）
- 特征：GC线程占用大量CPU，尤其是Full GC频繁触发。
- 场景：内存泄漏、堆内存设置不合理、对象创建过快。

此外，还有如正则表达式回溯、JNI调用、频繁反射等也可能导致CPU飙升。

二、环境准备：模拟CPU打满场景

为了演示排查过程，我们先编写一段模拟CPU打满的Java代码：

// Cpu100DemoApplication.java
public class Cpu100DemoApplication {public static void main(String[] args) {int coreCount = Runtime.getRuntime().availableProcessors();System.out.println("CPU核心数：" + coreCount);for (int i = 0; i < coreCount; i++) {new Thread(() -> {while (true) {// 死循环空转，持续占用CPU}}, "cpu-eater-thread-" + i).start();}}
}

操作步骤：

# 1. 编译
javac Cpu100DemoApplication.java# 2. 创建 MANIFEST
mkdir -p META-INF
cat > META-INF/MANIFEST.MF << 'EOF'
Manifest-Version: 1.0
Main-Class: Cpu100DemoApplication
Created-By: lyc
EOF# 3. 打包
jar cvfm Cpu100Demo.jar META-INF/MANIFEST.MF Cpu100DemoApplication.class# 4. 运行测试
java -jar Cpu100Demo.jar

此时，程序会为每个CPU核心创建一个死循环线程，模拟CPU打满场景。

三、方式一：使用 `top + jstack` 定位问题

这是最基础、最经典的排查方式，适用于所有Linux环境，无需额外工具。

步骤1：使用 `top` 查看进程CPU使用情况

top

观察输出，重点关注：

PID：进程ID
%CPU：CPU使用率（多核系统下可能超过100%）
%MEM：内存使用率

例如：

PID   %CPU  %MEM  COMMAND
21423 194.0 10.2  java -jar cpu-demo.jar

说明：我的服务器是2核，因此CPU最大使用率为200%。194%的使用率已接近打满，说明进程 21423 是问题源头。

步骤2：查看进程中各线程的CPU使用情况

使用 top -H 查看线程级CPU占用：

top -H -p 21423

输出中会列出该进程的所有线程，找到CPU使用率最高的几个线程，例如：

  PID  %CPU  COMMAND
21444 97.0  java
21445  96.5  java

这两个线程ID（21444、21445）极有可能是问题线程。

步骤3：将线程ID转换为16进制

JVM线程堆栈中的线程ID（nid）是16进制的，需转换：

printf '%x\n' 14898  # 输出：3a32
printf '%x\n' 21445  # 输出：53c5

记住这两个值：3a32 和 53c5。

步骤4：使用 `jstack` 查看线程堆栈

执行命令获取进程的线程快照：

jstack -l 21423 > jstack.log

打开日志文件，搜索 cpu-eater

"cpu-eater-thread-0" #14 prio=5 os_prio=0 cpu=390259.69ms elapsed=395.52s tid=0x0000558fec247c50 nid=0x53c2 runnable  [0x00007f2288f78000]java.lang.Thread.State: RUNNABLEat Cpu100DemoApplication.lambda$main$0(Cpu100DemoApplication.java:8)at Cpu100DemoApplication$$Lambda$1/0x0000000800c00a08.run(Unknown Source)at java.lang.Thread.run(java.base@17.0.0.1/Thread.java:833)

定位成功！ 问题出现在 Cpu100DemoApplication.java 死循环代码。

四、方式二：使用 Arthas 快速诊断

Arthas 是阿里巴巴开源的Java诊断工具，被誉为“Java程序员的瑞士军刀”。它无需修改代码，即可实时监控、诊断线上应用。

1. 安装与启动

# 下载
curl -O https://arthas.aliyun.com/arthas-boot.jar# 启动
java -jar arthas-boot.jar

启动后，Arthas会列出当前机器上所有Java进程：

* [1]: 3439 org.elasticsearch.bootstrap.Elasticsearch[2]: 21423 Cpu100Demo.jar

输入进程ID（如 2），回车进入监控界面。

2. 使用 `thread` 命令定位高CPU线程

# 查看CPU使用率最高的5个线程
thread -n 5

输出示例：

"cpu-eater-thread-3" Id=17 cpuUsage=99.95% deltaTime=210ms time=929934ms RUNNABLEat app//Cpu100DemoApplication.lambda$main$0(Cpu100DemoApplication.java:8)at app//Cpu100DemoApplication$$Lambda$1/0x0000000800c00a08.run(Unknown Source)at java.base@17.0.0.1/java.lang.Thread.run(Thread.java:833)"cpu-eater-thread-4" Id=18 cpuUsage=99.89% deltaTime=210ms time=930931ms RUNNABLEat app//Cpu100DemoApplication.lambda$main$0(Cpu100DemoApplication.java:8)at app//Cpu100DemoApplication$$Lambda$1/0x0000000800c00a08.run(Unknown Source)at java.base@17.0.0.1/java.lang.Thread.run(Thread.java:833)

无需转换进制，直接显示CPU使用率和代码位置，定位问题更直观、更高效！

3. Arthas的其他强大功能（扩展）

watch：监控方法的入参、返回值、异常
trace：追踪方法调用链，分析性能瓶颈
stack：查看指定方法的调用栈
dashboard：实时监控系统、JVM、线程、内存等状态
jvm：查看JVM信息
ognl：执行任意OGNL表达式，调用对象方法

Arthas让线上问题排查从“盲人摸象”变为“全局掌控”。

五、总结与建议

方法	优点	缺点	推荐指数
`top + jstack`	原生工具，无需安装，通用性强	操作繁琐，需手动转换进制，信息不够直观	⭐⭐⭐⭐
Arthas	功能强大，定位迅速，交互友好，支持热修复	需额外安装，有一定学习成本	⭐⭐⭐⭐⭐