当前位置：首页 > news >正文

Java JVM “调优” 面试清单（含超通俗生活案例与深度理解）

news 2025/10/19 7:54:15

一、常用的命令行性能监控和故障处理工具分为哪两类？各有哪些工具？核心作用是什么？

• 核心分类：主要分为操作系统工具和JDK自带工具两类。操作系统工具负责监控整台机器的全局资源状态，比如CPU、内存、磁盘IO、网络连接的整体使用情况；JDK自带工具则专门针对Java进程，能深入查看进程内的线程、内存、垃圾回收等细节，两者配合才能从“机器全局”到“Java进程局部”完整定位问题。

• 思考理解：很多人排查问题时容易只盯着JDK工具，忽略操作系统工具——比如Java进程CPU占用高，可能不是Java代码的问题，而是机器上同时运行的数据库进程占用了大量CPU资源，抢了Java进程的资源。所以第一步应该先用操作系统工具看全局，确定问题是否出在Java进程上，再用JDK工具深入排查，避免一开始就找错方向。

• 生活例子：可以把“排查线上问题”比作“找社区里某户人家的水电异常”，两类工具的作用对应起来很容易理解：

◦ 操作系统工具就像社区物业的“全局监控系统”：

◦ top工具像社区门口的电子显示屏，会实时滚动显示每栋楼的用电量、用水量，按资源占用排序，一眼就能看出哪栋楼资源消耗异常——比如看到3号楼的用电量是其他楼的5倍，就能快速锁定问题在3号楼。

◦ vmstat工具像家里的“实时水电表”，每隔1秒刷新一次数据，能看到当前冰箱（对应内存）的实时耗电、洗衣机（对应磁盘IO）的水流速度，比如发现冰箱耗电突然从100瓦涨到500瓦，就知道冰箱可能出了故障，需要进一步检查。

◦ iostat工具像“水管压力监测仪”，专门监测家里用水设备的负载情况——比如同时开着洗衣机、热水器、洗碗机，iostat能显示水管的读写压力是否超过正常范围，如果压力过高，就说明用水设备开得太多，导致水流变慢，对应到系统就是IO瓶颈。

◦ netstat工具像家里路由器的管理页面，能看到所有连网的设备和网络连接状态——比如孩子说平板刷视频卡顿，用netstat查看发现有个陌生设备连了家里的WiFi，还在下载电影，占用了大量带宽，把陌生设备断开后，平板卡顿的问题就解决了。

◦ JDK自带工具就像“入户排查的专用工具”，只针对Java进程这类“特定住户”：

◦ jps工具像社区里“Java住户的登记表”，输入命令就能列出所有正在运行的Java进程，比如社区团购后台进程、小区门禁系统进程，能快速确定要排查的目标进程，避免找错对象。

◦ jstat工具像“Java家庭的垃圾清运记录表”，输入“jstat -gc 进程ID 1000”这样的命令，每隔1秒就会显示一次新生代、老年代的垃圾回收次数、耗时等数据，比如看到每分钟Minor GC超过10次，就知道Java进程的“新物品区”（新生代）可能太小了，需要调整。

◦ jmap工具像“给Java家庭拍全屋快照”，当怀疑Java进程内存里堆了太多没用的对象时，用“jmap -dump:live,format=b,file=heap.dump 进程ID”命令生成内存快照文件，后续可以慢慢分析快照里哪些对象占空间最多，是否有没用却没被回收的对象。

◦ jstack工具像“Java家庭的人员活动记录册”，能列出进程里所有线程的状态，比如哪些线程在运行、哪些在阻塞、哪些在等待资源，比如发现某个线程一直处于阻塞状态，还标注着“等待某个锁”，就知道是线程死锁问题，像家里两个人同时抢一个冰箱门，谁都用不了。

◦ jcmd工具像“Java家庭的万能服务电话”，不用记jps、jmap、jstack等多个命令，输入“jcmd 进程ID help”就能看到所有可执行的操作，比如用“jcmd 进程ID GC.run”触发垃圾回收，用“jcmd 进程ID Thread.print”打印线程栈，对记不住太多命令的新手很友好。

二、你了解哪些可视化的性能监控和故障处理工具？分别适合什么场景？

• 核心工具：可视化工具按是否需要额外安装，分为JDK自带可视化工具和第三方可视化工具。JDK自带的工具不用额外下载，和JVM适配性好，适合快速做初步排查；第三方工具功能更深入，能处理复杂问题，比如内存泄漏分析、线上不停服排查，不过部分工具需要单独安装，甚至有些商用工具需要付费。

• 思考理解：命令行工具需要记参数、看纯文字输出，对新手不够友好，比如看GC日志时，满屏的数字很难快速判断是否正常；而可视化工具会把数据做成折线图、饼图等直观的图表，还能通过界面点击操作，比如GC频繁时，可视化工具会用红色折线标出GC次数的骤增，比看文字数字容易理解得多。不过要注意，自带工具功能比较基础，遇到复杂问题还是得靠第三方工具。

• 生活例子：把可视化工具比作“家庭设备的监控界面”，不同工具对应不同的监控需求，用生活场景类比更容易理解：

◦ JDK自带可视化工具：

◦ JConsole就像家里最基础的智能中控屏，打开后能看到Java进程的实时资源使用情况，界面上有“内存”“线程”“类”“VM摘要”等标签页，比如在“内存”标签页能看到堆内存的使用趋势图，在“线程”标签页能看到线程的运行状态。如果刚接手一个服务，想快速了解它的内存、GC是否正常，打开JConsole看10分钟就能有初步判断，操作很简单。

◦ VisualVM相当于“进阶版的智能中控屏”，除了有JConsole的所有功能，还支持装插件扩展功能。比如装“GC日志分析插件”，就能把本地的GC日志文件导入，自动生成GC次数、耗时的趋势图；装“线程分析插件”，能自动检测线程死锁并提示原因。比如想对比调整JVM参数前后的GC效果，用VisualVM分别导入调整前、后的GC日志，就能清晰看到调整后Minor GC次数从每天50次降到10次，效果一目了然。

◦ Java Mission Control（JMC）像是“家庭长期能耗监控系统”，能记录Java进程一段时间内的资源使用历史数据，比如一周内的CPU波动、GC趋势、方法执行耗时。比如服务每周五下午都会卡顿，用JMC查看历史数据，发现每次卡顿都对应某个统计方法的执行时间超过5秒，就能精准定位到这个方法，进一步排查卡顿原因。

◦ 第三方可视化工具：

◦ MAT（Memory Analyzer Tool）就像“专业的衣柜收纳师”，专门分析堆内存快照文件。当拿到Java进程的内存快照后，MAT会自动分析里面的对象，找出占用内存最多的对象，还会生成“内存泄漏报告”，标红那些“没用却没被回收的对象”。比如快照里有大量的社区团购订单快递盒对象，MAT会提示这些对象占总内存的60%，且没有被任何业务代码引用，属于内存泄漏，需要进一步查代码为什么没回收。

◦ GChisto和GCViewer就像“垃圾清运记录统计员”，专门处理GC日志。把Java进程的GC日志文件导入后，这两个工具会把日志里的GC次数、耗时、回收内存大小等数据，做成柱状图、折线图。比如想验证给新生代加大内存后，GC效果有没有变好，用GCViewer导入调整后的GC日志，能看到Minor GC耗时从每次200毫秒降到50毫秒，说明调整有效果，比手动看日志里的数字高效得多。

◦ Arthas相当于“社区里的免费应急维修师傅”，最大的优势是不用停止服务就能排查问题——线上服务不能随便重启，用Arthas时，只需要在服务器上执行启动命令，就能连接到目标Java进程。比如线上服务突然卡顿，用Arthas输入“dashboard”命令，就能看到实时的CPU、内存、线程使用情况；输入“trace 类名方法名”，能查看某个方法的执行耗时，比如查社区团购的订单计算方法，发现里面有个循环执行了1000次导致耗时过长，改完循环逻辑后，卡顿问题就解决了。

◦ JProfiler属于“付费的高端家政服务”，功能非常全面，不仅能监控CPU、内存、线程，还能分析方法调用链、数据库连接、缓存使用情况。比如排查服务响应慢的问题，用JProfiler看方法调用链，发现调用数据库的某个SQL执行时间超过3秒，再查看SQL详情，发现是没给查询字段加索引，优化索引后SQL执行时间降到100毫秒。不过JProfiler是商用工具，需要购买授权才能使用，适合对性能分析要求高的企业项目。

三、JVM的常见参数配置有哪些？重点关注哪几类？

• 核心分类：JVM参数虽然多，但实际调优时，重点关注堆配置参数、垃圾收集器选择参数、并行收集器优化参数、GC日志打印参数这四类。这四类参数直接影响Java进程的内存分配、垃圾回收效率，以及出问题时的排查便利性，其他参数比如元空间配置，除非有特殊需求，默认值基本能满足大部分场景。

• 思考理解：JVM参数本质是“给Java进程制定的运行规则”，就像给家里制定储物、保洁的规则一样，规则定得不合理，再怎么调优都没用。比如把新生代设得太小，就算用最好的垃圾收集器，也会频繁触发Minor GC；要是没开GC日志打印，出了内存问题都没法查原因。所以调优前一定要先理解每个参数的作用，再根据业务场景调整，不能随便改参数。

• 生活例子：把JVM参数比作“社区团购自提点的运营规则”，自提点需要规划储物空间、安排保洁打扫，这些规则和JVM参数的作用一一对应，容易理解：

◦ 堆配置参数：相当于“规划自提点的储物空间大小和分区”，自提点的储物空间对应JVM的堆内存，分“新货区”（新生代）、“旧货区”（老年代）、“暂存货区”（Survivor区），不同区域有不同的参数控制：

◦ -Xms参数是“储物间的初始大小”，比如给Java进程设置-Xms4g，就是一开始给自提点分配4平方米的储物空间。通常建议把-Xms和最大大小（-Xmx）设成一样，避免储物间频繁扩大或缩小——就像自提点一开始留4平，后来不够要扩到8平，扩建时需要搬东西，会耽误团长取货，对应到Java进程就是服务卡顿。

◦ -Xmx参数是“储物间的最大大小”，比如设置-Xmx8g，就是储物间最多能扩到8平方米。如果储物间满了还往里面放货，就会“没地方放”，对应到Java进程就是报内存溢出（OOM）错误，服务没法正常运行。

◦ -XX:NewSize和-XX:MaxNewSize参数控制“新货区”的大小，新货区专门放刚到的团购货物（刚创建的对象），比如设置-XX:NewSize=2g -XX:MaxNewSize=2g，就是把新货区固定为2平方米。新货区太小，刚到的货很快就满，需要频繁叫保洁来清理（Minor GC）；新货区太大又会挤占旧货区的空间，导致旧货区满得快，触发更耗时的Full GC。

◦ -XX:NewRatio参数是“新货区和旧货区的面积比例”，比如设置-XX:NewRatio=3，就表示新货区和旧货区的比例是1:3。如果自提点总储物空间是8平方米，新货区就是2平方米，旧货区就是6平方米，这个比例适合新货少、旧货多的场景，比如后台统计服务，创建的对象生命周期比较长，大部分会进入旧货区。

◦ -XX:SurvivorRatio参数控制“新货区里常用货区和暂存货区的比例”，新货区里，常用货区（Eden区）放当天刚到的货，暂存货区（Survivor区）放用了2天还没取走的货，而且暂存货区有两个。比如设置-XX:SurvivorRatio=3，就表示常用货区和两个暂存货区的比例是3:2，要是新货区共5平方米，常用货区就占3平方米，每个暂存货区占1平方米。

◦ 垃圾收集器选择参数：相当于“给自提点选保洁的工作方式”，不同保洁方式适合不同场景：

◦ -XX:+UseSerialGC参数表示“让一个保洁慢慢打扫”，也就是单线程垃圾收集器，适合内存小、CPU核数少的服务，比如个人开发的小工具，内存只有1GB，一个保洁足够，多了反而会互相干扰。

◦ -XX:+UseParallelGC参数表示“让多个保洁一起打扫新货区”，属于多线程收集器，新货区的清理效率高，适合多核CPU、追求吞吐量的服务，比如社区团购的后台批处理任务，每天凌晨统计订单，不在乎单次GC耗时，只要整体处理速度快。

◦ -XX:+UseConcMarkSweepGC（CMS）参数表示“保洁先粗略扫一遍，不耽误取货，之后再细扫”，也就是并发垃圾收集器，清理老年代时不会长时间暂停服务，适合对响应时间敏感的服务，比如电商下单接口、社区团购的支付服务，用户不能等太久，需要尽量减少卡顿。

◦ 并行收集器优化参数：相当于“给保洁团队制定工作规则”，让保洁工作更高效：

◦ -XX:ParallelGCThreads参数控制“保洁团队的人数”，比如设置-XX:ParallelGCThreads=4，就是让4个保洁一起工作。人数不是越多越好，比如CPU只有4核，设8个保洁会导致CPU频繁切换，反而降低效率，通常建议和CPU核数一致或略少。

◦ -XX:MaxGCPauseMillis参数设置“保洁每次打扫的最大允许耗时”，比如设置-XX:MaxGCPauseMillis=100，就是每次打扫不能超过100毫秒。如果保洁打扫到100毫秒还没结束，会先暂停打扫，优先保证用户正常使用服务，这个参数适合对卡顿敏感的场景，但设置得太严格会导致GC次数增多，整体效率下降。

◦ -XX:GCTimeRatio参数控制“GC耗时占总工作时间的比例”，计算方式是GC时间除以（GC时间+业务处理时间）等于1除以（1+参数值），比如设置-XX:GCTimeRatio=99，就是GC耗时最多占总时间的1%。这个参数适合追求高吞吐量的服务，确保大部分时间都在处理业务，而不是清理垃圾。

◦ GC日志打印参数：相当于“让保洁记工作日记”，方便后续查问题：

◦ -XX:+PrintGC参数会让保洁记“简单日记”，比如日志里会显示“[GC (Allocation Failure) 1024K->512K(4096K)]”，只记录垃圾回收前后的内存变化，信息比较简略。

◦ -XX:+PrintGCDetails参数会让保洁记“详细日记”，除了内存变化，还会记录回收的区域（比如是新生代还是老年代）、回收耗时、回收的对象数量，比如日志里会显示“[GC (Allocation Failure) [PSYoungGen: 1024K->512K(2048K)] 1024K->640K(4096K), 0.0010000 secs] [Times: user=0.00 sys=0.00, real=0.00 secs]”，能看到更多细节。

◦ -XX:+PrintGCTimeStamps参数会给日记“加时间戳”，比如日志里会显示“10.001: [GC ...]”，知道每次垃圾回收的具体时间，方便对应线上问题，比如用户反馈10点01分服务卡顿，查GC日志就能知道当时是否有耗时较长的GC。

◦ -Xloggc:gc.log参数会把保洁的日记“写到专门的本子里”，也就是把GC日志输出到指定的gc.log文件中，避免和业务日志混在一起，后续用GCViewer等工具分析时，直接导入这个文件就行，不用从海量业务日志里筛选。

四、你有过JVM调优的实际经历吗？具体怎么解决的？

• 核心逻辑：JVM调优的关键不是“盲目改参数”，而是“先找到代码层面的问题”。大部分线上JVM问题，比如内存溢出、GC频繁，其实是代码写得有问题，比如重复创建对象、没做防重复请求、资源用完没释放，这时候改参数只是暂时缓解，治标不治本；只有先把代码问题解决，再根据需要调整参数，才能彻底解决问题。

• 思考理解：很多人面试时会说“我把堆内存从4G改成8G，问题就解决了”，但这种回答没抓住调优的本质。真正的调优应该是“发现问题→初步尝试→定位根源→解决代码问题→验证效果”的完整流程，重点要体现如何从“改参数”转向“改代码”，比如先尝试加大内存没用，再通过工具定位到是重复请求导致的对象过多，最后改前后端代码解决问题，这样才说明懂调优。

• 实际处理案例：之前在做社区团购团长后台项目时，遇到过“导出月度账单偶发内存溢出”的问题，整个处理过程很有代表性：

1. 发现问题：每月1号团长集中导出上个月的账单时，偶尔会出现“服务出错”的提示，查监控发现，每次出错时Java进程的堆内存都会从4G涨到8G（当时设置的最大堆内存是8G），然后报内存溢出错误，重启服务后又能正常使用，但过几天可能又会出现。

2. 初步尝试（走了弯路）：一开始以为是堆内存不够用，因为导出账单要查很多订单数据，可能生成大量对象，于是把初始堆内存（-Xms）从4G改成8G，最大堆内存（-Xmx）保持8G，避免内存频繁扩建。但改完后，问题还是偶尔出现，这时候才意识到，不是内存不够，而是有其他隐藏问题。

3. 定位问题根源：

◦ 第一步加参数抓内存快照：为了找到内存溢出时的对象情况，在JVM启动参数里加了三个参数，分别是-XX:+PrintGCDetails（打印详细GC日志）、-XX:+HeapDumpOnOutOfMemoryError（内存溢出时自动生成堆快照）、-XX:HeapDumpPath=/data/dump/heap.dump（指定快照文件保存路径），这样下次内存溢出时，就能拿到快照文件分析。

◦ 第二步分析快照文件：过了3天，内存溢出再次发生，拿到heap.dump文件后，用MAT工具打开分析，发现快照里“账单明细对象”占了总内存的75%，有近5万个，还关联了很多Excel生成相关的对象。正常情况下，一个团长导出账单只会生成一个账单对象，5万个明显不正常，说明有重复的导出请求。

◦ 第三步查前后端交互逻辑：看后端导出账单的代码，发现接收请求后，会直接查该团长当月的所有订单（没分页），然后生成Excel文件返回，代码里没做防重复请求的处理；再看前端页面，导出按钮点击后没有“置灰”效果，团长点一次没反应（导出要30秒左右），就会连续点好几次，比如有个团长连续点了5次，后端就同时处理5个导出请求，每个请求查5万条订单，生成5个Excel对象，5个请求加起来占了7G内存，直接把8G堆内存占满。

◦ 第四步验证猜想：在测试环境模拟团长连续点5次导出按钮，监控显示堆内存10分钟内从2G涨到7.8G，最后报内存溢出，和线上问题完全一致，确定问题根源是“前端没置灰+后端没防重，导致重复请求生成大量重复对象”。

4. 解决问题（没改任何JVM参数）：

◦ 前端优化：给导出账单的按钮加“点击后置灰”逻辑，用户点击按钮后，按钮立刻变成灰色，不能再点击，直到后端返回“导出完成”或“导出失败”的结果后，才恢复按钮的可点击状态，从源头避免重复点击。

◦ 后端优化：加分布式锁做防重复请求处理，用“团长ID+导出日期”作为锁的key，比如团长A在2024年5月1号发起导出请求，就生成“团长A_202405”的锁key，同一锁key在10分钟内只能处理一次请求，重复的请求直接返回“正在导出，请稍后重试”的提示，不让重复请求进入业务逻辑。

5. 验证效果：改完前后端代码上线后，观察了3个月，每月1号导出账单的高峰期，堆内存最高只用到3G，再也没出现过内存溢出；监控显示导出请求的并发数从之前的5到8个，降到每个团长最多1个，GC次数也减少了60%，问题彻底解决。

五、线上服务CPU占用过高，你会怎么排查？

• 核心步骤：CPU占用过高的本质是“某个或某些线程一直在‘干活’，停不下来”，比如死循环、频繁计算、无限等待锁。排查要遵循“从宏观到微观”的步骤，先找到哪个进程占CPU高，再找进程里哪个线程占CPU高，接着看线程在执行什么代码，最后定位问题并解决，每一步都有明确的工具和目标，不能乱查。

• 思考理解：新手排查CPU高时，容易直接用jstack命令打印所有线程栈，然后对着几百行日志发呆，找不到重点。其实关键是“逐步缩小范围”，先通过操作系统工具找到高CPU的进程和线程，再只分析这个线程的栈信息，效率会高很多。另外，jstack日志里的线程ID是16进制的，而top命令显示的线程ID是十进制的，需要转换一下才能对应上，这是很多人容易踩的坑。

• 生活例子：把CPU过高排查比作“找社区里耗电异常的电器”，用生活场景类比排查流程，更容易理解：

1. 第一步：定位高CPU进程（找哪户人家耗电高）
用top命令查看系统进程的资源占用，top默认按CPU使用率从高到低排序，能快速找到CPU占比最高的进程。比如执行top后，看到社区团购后台进程（进程ID 12345）的CPU占比是90%，其他进程的CPU占比都在5%以下，说明问题就出在这个Java进程里。
这一步就像社区物业看总监控屏，发现302室的用电量是其他住户的10倍，立刻确定问题在302室。

2. 第二步：定位进程内高CPU线程（找哪台电器耗电高）
知道进程后，用top -Hp 进程ID的命令，查看该进程下所有线程的CPU占用情况，其中-Hp参数的作用是“显示进程包含的所有线程”。比如执行“top -Hp 12345”，看到线程ID 12350的CPU占比是85%，其他线程的CPU占比都在1%以下，说明问题出在这个线程上。
这一步相当于去302室，看每个电器的实时耗电情况，发现电烤箱的耗电量占了总耗电的85%，其他电器耗电很少，确定问题在电烤箱。

3. 第三步：将线程ID转成16进制（给电器编“日志编号”）
用jstack命令打印线程栈时，日志里的线程ID（nid字段）是16进制的，而top命令显示的线程ID是十进制的，需要用printf命令转换。比如要转换线程ID 12350，执行“printf "%x\n" 12350”，输出结果是303e，这个303e就是线程12350在jstack日志里的编号。
这就像电烤箱的实际编号是12350，但家电说明书里的编号是303e，要先对应上编号，才能在说明书里找到相关信息。

4. 第四步：查看线程栈找问题代码（看电器的使用记录）
用jstack 进程ID > 线程栈文件的命令，把进程的所有线程栈输出到文件里，方便后续查找。比如执行“jstack 12345 > thread.log”，然后用文本编辑器打开thread.log文件，搜索16进制的线程编号303e，找到对应的线程栈信息。
从栈信息里能看到，这个线程叫“OrderCalculateThread”，当前状态是RUNNABLE（一直在运行），正在执行“com.group.service.OrderService”类里的“calculateDiscount”方法，具体在第123行。这说明这个方法可能有问题，导致线程一直运行，占用CPU。
这一步就像看电烤箱的使用记录，发现“温度计算模块”一直在工作，没停下来，对应到代码就是方法里有循环没结束。

5. 第五步：查看代码定位问题（修电器故障）
找到对应的方法后，查看代码逻辑，发现“calculateDiscount”方法里有个while循环，原本的逻辑是“订单金额满100减10，直到金额小于100就停止循环”，但代码里忘了在循环中给订单金额减去100，导致不管循环多少次，订单金额都一直大于等于100，循环永远停不下来，线程就一直占用CPU计算折扣。
这就像电烤箱的温度控制逻辑出了问题，设定温度是1000度，但加热后没更新温度显示，一直显示900度，所以电烤箱一直加热，不会停止。

6. 第六步：修复并验证（修完电器看效果）
找到问题后，在while循环里加上“订单金额减去100”的代码，重新部署服务。之后用top命令查看，进程12345的CPU占比降到5%以下，线程12350的CPU占比降到0.5%，服务响应速度也恢复正常，问题解决。
这就像修好电烤箱的温度控制逻辑，加热到1000度后自动停止，耗电量恢复正常。

六、线上服务内存飙高，怎么排查原因？

• 核心步骤：内存飙高只有两种可能原因，要么是“对象创建太快，垃圾回收来不及清理”，要么是“对象没用了但没被回收（内存泄漏）”。排查时要先通过GC情况判断是哪种原因，再针对性定位：第一步看GC回收效果，区分是创建太快还是内存泄漏；第二步找占内存最多的对象，缩小排查范围；第三步生成内存快照深入分析；最后定位到代码解决问题。

• 思考理解：很多人看到内存飙高，就直接生成堆快照文件分析，但如果是“对象创建太快”导致的飙高，生成快照时可能内存已经满了，导致服务卡顿甚至崩溃。所以第一步应该先看GC情况，通过GC回收的内存比例判断原因：如果每次GC能回收大量内存，说明是创建太快；如果GC只能回收很少内存，说明是内存泄漏，这样能少走弯路，提高排查效率。

• 生活例子：把内存飙高排查比作“社区团购自提点的储物间快速堆满”，用自提点的场景类比，更容易理解整个排查流程：

1. 第一步：看GC回收效果（看保洁能不能清走货物）
用jstat -gc 进程ID 1000的命令，每隔1秒打印一次GC统计信息，重点看新生代、老年代回收前后的内存变化。
如果每次Minor GC后，新生代内存能从90%降到30%，也就是回收了60%的内存，说明GC回收正常，问题是“对象创建太快”，就像自提点每天进100件货，保洁能清走60件，但还是堆得快；如果每次Minor GC后，新生代内存只从90%降到85%，只回收5%，或者Full GC后老年代内存只降1%，说明GC回收效果差，问题是“内存泄漏”，就像自提点的货扔不掉，保洁每次只能清走5%，越堆越多。
这一步就像先看自提点的保洁能不能清走货，能清走是进货太快，清不走是货没法扔。

2. 第二步：找占内存最多的对象（看哪类货占空间最多）
用jmap -histo 进程ID的命令，查看堆内存中对象的数量和内存占用，按内存占用排序后，重点看前20个对象类型。比如执行命令后，看到社区团购的优惠券对象有10万个，占用8MB内存，订单明细对象有5万个，占用6MB内存，能明显看到优惠券对象是当前占用内存最多的类型，说明问题和优惠券对象相关。
这一步就像看自提点的储物间，发现1000张优惠券占了一半空间，其他货物占比都小，确定要重点查优惠券相关的操作。

3. 第三步：生成内存快照（给储物间拍全景照）
如果是内存泄漏，或者通过第二步找不到明确的问题对象，就需要生成内存快照深入分析。用jmap -dump:live,format=b,file=heap.dump 进程ID的命令生成快照，其中live参数表示只保存存活的对象，能让快照文件小一些，format=b表示生成二进制格式的快照，file参数指定保存路径。比如执行“jmap -dump:live,format=b,file=/data/heap.dump 12345”，生成2G左右的快照文件。
注意，生成快照时进程会短暂暂停，线上服务要选低峰期操作，或者用Arthas的heapdump命令，对服务的影响更小。这一步就像给自提点的储物间拍全景照，方便后续慢慢看每样货放在哪、有没有用。

4. 第四步：分析快照找根源（分析照片找问题）
用MAT或VisualVM工具打开快照文件，重点看“内存泄漏怀疑（Leak Suspects）”和“占用内存最多的组件（Top Components）”两个模块：
如果是“对象创建太快”，在Top Components里看优惠券对象的“引用链”，会发现这些对象都来自“秒杀活动创建优惠券”的方法，秒杀时每秒创建1000个优惠券对象，GC来不及清理，导致内存飙高；如果是“内存泄漏”，在Leak Suspects里会看到“优惠券对象被静态列表引用，且没有清理”，代码里有个静态的ArrayList，每次创建优惠券都加进去，没删除，导致对象永远没法回收，越堆越多。
这一步就像看自提点的全景照，发现优惠券要么是秒杀时进太多（创建太快），要么是装在固定的篮子里拿不出来（泄漏）。

5. 第五步：定位代码并解决（处理货物堆积问题）

◦ 如果是“对象创建太快”：给秒杀活动加流量控制，每秒最多创建200个优惠券对象，超过的请求排队；同时简化优惠券对象的字段，去掉冗余的描述信息，减少单个对象的内存占用。改完后，内存飙高的速度降低80%，GC能及时清理。
这就像自提点控制秒杀时的进货量，每秒只进20个优惠券，还把优惠券的尺寸做小，保洁能清得过来。

◦ 如果是“内存泄漏”：把静态列表改成WeakHashMap（弱引用，对象没其他引用时会被GC回收），或者每天凌晨定时清理3天前的优惠券对象。改完后，Full GC能回收80%的优惠券对象，老年代内存从90%降到30%。
这就像把装优惠券的固定篮子换成能自动脱落的篮子，没用的优惠券会掉下来，保洁能清走。

6. 第六步：验证效果（看储物间是否恢复正常）
改完代码后，用jstat -gc 进程ID 1000监控GC情况，发现Minor GC的回收比例从5%升到60%，老年代内存稳定在40%以下；用top命令看进程内存占比，从80%降到40%，内存飙高的问题解决。

七、频繁发生Minor GC该怎么处理？为什么？

• 核心原因与解决办法：Minor GC频繁的根本原因是“新生代空间太小”。新生代专门存放刚创建的短期对象，比如接口请求对象、临时计算对象，如果新生代空间小，这些对象很快就会把新生代装满，导致垃圾回收频繁触发。解决办法很直接，就是增大新生代的大小，通过-Xmn参数或者-XX:NewSize、-XX:MaxNewSize参数调整，让新生代能装更多短期对象，减少垃圾回收的频率。

• 思考理解：有人可能会问“能不能通过换GC算法减少Minor GC频率？”，其实GC算法只影响“单次Minor GC的耗时”，比如并行GC比串行GC清理得快，但不会减少GC的频率。Minor GC的频率由“新生代大小”和“对象创建速度”两个因素决定，只要对象创建速度不变，只有增大新生代空间，才能从根本上减少GC频率。

• 生活例子：用社区团购自提点的“新货区”类比新生代，更容易理解Minor GC频繁的原因和解决办法：

1. 为什么会频繁发生Minor GC？
假设自提点的新货区（新生代）只有1平方米，每天要进3次货（早中晚各进一次蔬菜、水果），每次进的货占0.4平方米。早上进货后新货区占0.4平方米，中午进货后占0.8平方米，晚上进货后直接满1平方米，保洁每天要清理3次（Minor GC 3次）；如果把新货区扩大到3平方米，每天进3次货只占1.2平方米，3天才能装满，保洁3天清理1次（Minor GC 1次），频率明显降低。
对应到Java进程：如果新生代大小是1G，每秒创建200MB的短期对象，5秒就会装满新生代，触发Minor GC；如果把新生代扩大到3G，15秒才会装满，Minor GC的频率从每秒1次降到每15秒1次，减少了很多。

2. 怎么调整新生代大小的参数？
调整新生代大小有两种常用的参数设置方式：
第一种是直接用-Xmn参数，比如设置-Xmn3g，就表示把新生代的大小固定为3G，这个参数简单直接，推荐优先使用；第二种是用-XX:NewSize和-XX:MaxNewSize参数，比如设置-XX:NewSize=3g -XX:MaxNewSize=3g，效果和-Xmn3g一样，只是需要写两个参数，确保初始大小和最大大小一致，避免新生代频繁扩大或缩小。
要注意，新生代不能无限大，新生代占整个堆内存的比例建议在1/3到1/2之间。比如堆内存总共8G，新生代设4G比较合适；如果设6G，老年代就只剩2G，容易装满，触发更耗时的Full GC，反而影响服务性能。

3. 调整后的效果验证
调整前：新生代1G，Minor GC每秒1次，每次耗时200毫秒，服务的平均响应时间是500毫秒，其中GC耗时占了40%，影响服务效率；
调整后：新生代3G，Minor GC每15秒1次，虽然单次GC耗时因为空间变大增加到300毫秒，但频率大幅降低，服务的平均响应时间降到300毫秒，GC耗时占比只有2%，整体性能提升明显。

4. 特殊情况：对象创建速度极快
如果遇到秒杀、大促等场景，对象创建速度极快，比如每秒创建1G的对象，即使把新生代扩大到5G，5秒也会装满，Minor GC还是频繁。这时候不能只靠增大新生代，还要结合业务优化：比如用“对象池”复用短期对象，比如请求对象用完后不销毁，清理数据后重新使用，减少对象创建；或者把非核心的对象放到本地缓存或Redis里，不占用堆内存，比如把秒杀活动的优惠券信息存到Redis，不用每次创建对象。
这就像自提点遇到秒杀活动，每秒进100件货，新货区再大也会满，这时候要减少进货量（复用对象），或者把货放到隔壁仓库（缓存），不占新货区空间。

八、频繁发生Full GC该怎么排查和解决？

• 核心逻辑：Full GC是垃圾回收清理老年代的过程，耗时是Minor GC的10到100倍，频繁Full GC会导致服务频繁卡顿，比如单次Full GC耗时1秒，每分钟10次，服务就有10秒在卡顿。排查Full GC要先“找到老年代满的原因”，再针对性解决，常见原因有“大对象直接进老年代”“内存泄漏”“长生命周期对象太多”“JVM参数设置不合理”，其中“大对象”和“内存泄漏”是最常见的原因。

• 思考理解：很多人排查Full GC时，会先尝试增大老年代的大小，比如把-XX:OldSize从5G改成8G，但如果是大对象或内存泄漏导致的老年代满，增大空间只是“延缓问题”，过一段时间老年代还是会满，Full GC还是会频繁。所以关键是“找到老年代满的原因”，而不是“单纯扩大老年代空间”，比如大对象要拆分成小对象，内存泄漏要释放无用对象的引用。

• 实际处理案例：之前在社区团购商家后台项目里，遇到过“每天10点Full GC频繁”的问题，整个排查和解决过程很典型：

1. 第一步：确认Full GC的频率和影响
用公司的监控系统看JVM指标，发现每天10点左右，Full GC的频率会从“每小时1次”突然增加到“每分钟2次”，单次Full GC耗时1.2秒，导致商家查询“月度销售报表”的接口响应时间从500毫秒涨到3秒，还有大量超时报警，明显影响了商家的正常使用，确定问题和10点的报表查询高峰有关。

2. 第二步：列出可能原因并逐一排除
先列出所有可能导致Full GC频繁的原因，再结合实际情况排除：

◦ 原因1：JVM参数设置不合理？查当前的JVM参数，堆内存8G（-Xms8g -Xmx8g），新生代3G（-Xmn3g），老年代5G，用的是CMS垃圾收集器（-XX:+UseConcMarkSweepGC），这些参数之前一直稳定运行，没改过，参数本身没问题，排除。

◦ 原因2：代码里显式调用GC？查项目代码和依赖的框架，没发现“System.gc()”的调用，框架也没有自动调用GC的配置，排除。

◦ 原因3：大对象直接进老年代？10点是商家查报表的高峰，报表查询需要查大量销售数据，可能生成大对象，大对象超过新生代的阈值会直接进老年代，导致老年代满，这个原因的可能性很大，重点怀疑。

◦ 原因4：内存泄漏？如果是内存泄漏，Full GC的频率应该是逐渐增加的，而不是每天固定10点突然变频繁，暂时排除。

3. 第三步：用工具验证大对象猜想

◦ 用jstat -gcutil 进程ID 1000的命令，每秒查看老年代的使用率，发现10点前老年代使用率稳定在30%左右，10点后每秒增长2%，5分钟就涨到95%，触发Full GC，GC后使用率降到60%，然后又继续增长，说明有对象不断进入老年代，而且GC能回收一部分，不是内存泄漏，进一步验证了大对象的猜想。

◦ 用jmap -histo 进程ID的命令，在10点报表查询高峰时查看对象情况，按内存占用排序后，发现“销售报表对象”有50个，每个对象占用100MB内存，总共5G，正好等于老年代的大小，确定是销售报表大对象导致老年代满，触发Full GC。

4. 第四步：定位代码找大对象产生的原因
查生成销售报表的代码，发现“generateSalesReport”方法里有两个问题：一是查询销售明细时没分页，直接查该商家当月的所有销售数据，最多时有10万条记录；二是生成报表对象时，把所有销售明细都存到报表对象里，没做数据筛选，导致每个报表对象的大小达到100MB，超过了新生代的大对象阈值（默认16MB），直接进入老年代。
比如一个商家查月度报表，代码会查10万条销售明细，每条明细1KB，总共100MB，生成的报表对象包含这10万条明细，直接进老年代，5个商家同时查询，老年代就满了。

5. 第五步：解决大对象问题
针对大对象直接进老年代的问题，做了两个优化：

◦ 代码层面优化：给销售明细查询加分页，每次只查1000条记录，避免一次性查太多数据；生成报表对象时，只保留“销售额、订单数、客单价”等汇总数据，不保存所有销售明细，这样每个报表对象的大小从100MB降到500KB，远小于新生代的大对象阈值，会先进入新生代，Minor GC就能回收，不会进入老年代。

◦ 业务层面优化：给报表查询加缓存，同一商家1小时内查询同一月份的报表，直接返回缓存的结果，不用重新生成报表对象，减少大对象的创建，比如50个商家查询报表，缓存后只需要生成10个报表对象，大幅减少老年代的对象进入。

6. 第六步：验证优化效果
优化后上线，观察10点报表查询高峰时的指标：老年代使用率稳定在35%左右，再也没超过50%，Full GC的频率从每分钟2次降到每小时1次，单次Full GC耗时也从1.2秒降到0.3秒；商家查询报表的接口响应时间从3秒降到300毫秒，超时报警全部消失，问题彻底解决。

九、你处理过内存泄漏问题吗？怎么定位的？

• 核心定义与特点：内存泄漏是指“对象已经没有业务用途了，但还被其他对象引用着，导致垃圾回收没法清理”，最终这些无用对象越堆越多，占满堆内存，触发内存溢出。内存泄漏有个明显特点，就是“内存使用率渐进式增长”，比如每天增长5%，Full GC的频率也逐渐增加，和“对象创建太快”导致的“突发内存高”有明显区别。

• 思考理解：很多人把“内存高”和“内存泄漏”画等号，其实不是——内存高可能是对象创建太快，也可能是内存泄漏，关键看GC能不能回收。定位内存泄漏的核心是“找到‘没用却没被回收’的对象”，通过内存快照分析这些对象的引用链，看是被哪个“根对象”（比如静态集合、线程池）引用着，从而找到代码里的问题。

• 实际处理案例：之前在社区团购IM聊天服务项目里，遇到过“运行一周后内存飙高、Full GC频繁”的内存泄漏问题，整个定位和解决过程如下：

1. 第一步：确认是否是内存泄漏
看监控系统的JVM指标，发现服务启动时堆内存使用率30%，之后每天增长5%，一周后涨到95%，触发内存溢出；Full GC的频率从每天1次增加到每小时5次，单次Full GC耗时从0.5秒增加到1.5秒，服务响应速度越来越慢，符合内存泄漏“渐进式恶化”的特点，确定是内存泄漏问题。

2. 第二步：定位泄漏的进程和线程
用jps命令找到IM服务的进程ID（12345），用top -p 12345查看，发现进程的内存占比90%，CPU占比30%（GC线程在频繁工作）；再用top -Hp 12345查看线程情况，发现有100个“ChatHandlerThread”线程（处理客户端聊天连接的线程），状态都是RUNNABLE，正常情况下这类线程最多20个，明显异常，怀疑这些线程没被正常回收。

3. 第三步：用jstack分析线程状态
用jstack 12345 > thread.log的命令生成线程栈文件，查看“ChatHandlerThread”线程的栈信息，发现每个线程都在执行“Socket连接读取数据”的逻辑，而且每个线程都引用了一个“SocketConnection”对象，这些线程没有被线程池管理，客户端断开连接后，线程也没停止，一直处于运行状态，导致SocketConnection对象没法回收。

4. 第四步：生成内存快照分析泄漏对象
用jmap -dump:live,format=b,file=heap_leak.dump 12345生成内存快照，用MAT工具打开分析：

◦ 在“Leak Suspects”模块，MAT提示“SocketConnection对象被ChatHandlerThread线程引用，线程数量异常，存在内存泄漏风险”，并显示这些对象占总内存的65%。

◦ 查看SocketConnection对象的引用链，发现每个对象都被“ChatHandlerThread”线程的局部变量引用，而这些线程没有被终止，一直持有引用，导致SocketConnection对象没法被GC回收。

5. 第五步：定位代码找泄漏根源
查ChatHandlerThread线程的创建逻辑，发现“acceptClient”方法里有两个问题：一是每次接收客户端连接都创建新线程，没使用线程池，线程数量无限制；二是线程的run方法里没有检测客户端连接是否断开，即使客户端断开，线程还在循环读取数据，不会停止，一直持有SocketConnection对象的引用。
比如用户关闭IM客户端后，服务器的ChatHandlerThread线程还在运行，引用的SocketConnection对象没法回收，用户频繁连接断开，线程和SocketConnection对象越堆越多，导致内存泄漏。

6. 第六步：修复内存泄漏
针对线程没回收、对象引用没释放的问题，做了两个优化：

◦ 用线程池管理线程：创建固定大小的线程池，核心线程数和最大线程数都设为20，每次接收客户端连接后，把任务提交到线程池，避免线程无限创建，超过线程池容量的请求排队等待，不会创建新线程。

◦ 加客户端断开检测：在ChatHandlerThread线程的run方法里，循环读取Socket数据时，判断Socket是否关闭，如果关闭就退出循环，在finally块里关闭Socket，释放SocketConnection对象的引用，让GC能回收。

7. 第七步：验证修复效果
修复后上线，服务运行一个月，堆内存使用率稳定在40%左右，没再增长；Full GC频率保持在每天1次，单次耗时0.5秒；ChatHandlerThread线程数量稳定在20个左右，SocketConnection对象在客户端断开后能被正常回收，内存泄漏问题彻底解决。

十、你处理过内存溢出（OOM）问题吗？和内存泄漏有什么关系？

• 核心关系：内存溢出（OOM）是“堆内存、元空间等内存区域满了，没法再分配内存”的结果，而内存泄漏是“导致内存溢出的常见原因之一”，但不是唯一原因。内存泄漏会让无用对象越堆越多，最终占满内存，触发溢出；但内存溢出也可能是“对象创建太快，GC来不及回收”“内存设置太小”“元空间满了”等原因导致，不能把两者画等号。

• 思考理解：遇到内存溢出时，不能直接认定是内存泄漏，要先看溢出的类型，比如是堆内存溢出（heap space）、元空间溢出（Metaspace）还是栈溢出（StackOverflowError），再针对性找原因。比如堆溢出要看对象创建和回收情况，元空间溢出要看类加载数量，栈溢出要看线程数量或递归深度，这样才能高效解决问题。

• 实际处理案例：之前在项目里处理过三次不同原因的内存溢出，其中两次是堆溢出，一次是元空间溢出，不同案例的处理方式不同，也能体现内存溢出和内存泄漏的关系：
案例1：内存泄漏导致的堆溢出（IM聊天服务）

◦ 溢出现象：IM服务运行一周后，堆内存从4G涨到8G（最大堆内存8G），报“java.lang.OutOfMemoryError: Java heap space”错误，服务崩溃，重启后恢复，但过一周又会溢出。

◦ 和内存泄漏的关系：这次溢出的直接原因是内存泄漏，ChatHandlerThread线程没被回收，引用的SocketConnection对象越堆越多，老年代从30%涨到95%，Full GC只能回收1%，最后堆内存满，触发溢出。内存泄漏是“因”，内存溢出是“果”，如果不解决泄漏，重启只能暂时缓解。

◦ 解决方式：用线程池管理IM线程，加客户端断开检测，释放SocketConnection对象引用，修复泄漏后，堆内存稳定在40%，没再溢出（详情见第九点）。

案例2：对象创建太快导致的堆溢出（直播弹幕服务）

◦ 溢出现象：社区团购搞“团长颁奖”直播，峰值时每秒有1000条弹幕发送，服务运行10分钟后，堆内存从8G涨到16G（最大堆内存16G），报堆溢出错误，弹幕发送失败。

◦ 不是内存泄漏的原因：用jstat -gc 进程ID 1000查看GC情况，每次Minor GC能回收80%的新生代内存，Full GC能回收70%的老年代内存，说明对象能被正常回收，不是泄漏，而是“对象创建太快，GC来不及清理”。

◦ 定位与解决：用jmap -histo查看对象，发现“弹幕对象”有360万个，每个100字节，10分钟积累21600万个，占21.6G，超堆内存。查代码发现弹幕存内存队列，没长度限制，写库速度500条/秒跟不上接收速度1000条/秒。优化后给队列加10万条限制，批量写库，内存队列换Redis，弹幕对象最多1万个，堆稳定在50%，没再溢出。

案例3：元空间溢出（老项目升级依赖）

◦ 溢出现象：老的社区团购后台项目升级Spring Boot版本后，启动时报“java.lang.OutOfMemoryError: Metaspace”错误，启动失败。

◦ 原因分析：元空间用来存类的信息，升级后的依赖包比之前多50个，加载的类从1万个涨到2万个，而元空间参数设置的是-XX:MetaspaceSize=64m -XX:MaxMetaspaceSize=64m，空间不够，导致溢出。

◦ 解决方式：把元空间的最大大小改成128m（-XX:MaxMetaspaceSize=128m），启动后元空间使用率60%，启动成功，没再报溢出。

• 总结区别与联系：

◦ 联系：内存泄漏是导致堆内存溢出的重要原因，泄漏会让无用对象持续积累，最终占满堆内存，而且泄漏导致的溢出是渐进式的，需要一段时间才会爆发；内存溢出是内存泄漏的常见结果之一。

◦ 区别：内存溢出是“内存不够用”的最终结果，原因多样，可能是泄漏、对象创建太快、内存设置太小、元空间满了等；内存泄漏是“对象没用却没被回收”的原因，只导致堆内存溢出，且有渐进式的特点。

◦ 排查建议：遇到内存溢出，第一步先看错误信息里的溢出类型，是heap space、Metaspace还是StackOverflowError，再针对性找原因，不要一上来就查内存泄漏，避免走弯路。

查看全文

http://www.dtcms.com/a/499346.html