当前位置: 首页 > news >正文

ConcurrentHashMap导致的死锁事故

事故现象

某线上服务共100台容器,第二天上午流量高峰期部分容器(约10%)cpu飙升,升至100%。

部分堆栈信息

堆栈信息如下如所示:

当前线程堆栈显示在JsonContext.get方法中调用computeIfAbsent,其Lambda表达式(JsonContext$$Lambda$1329)内部触发了Program.processScript.eval,最终再次调用JsonContext.get,形成递归。

直接原因:Java 8的ConcurrentHashMap.computeIfAbsent在计算函数中重入同一键会导致死锁,因为内部锁不可重入

可以看到当前线程虽然是RUNNABLE 状态,但当前线程自身因递归调用导致锁无法释放,属于自死锁,无其他线程介入。

原因分析

ConcurrentHashMap 的锁机制

  • computeIfAbsent 在计算过程中会对当前键的哈希桶(bin)加锁(使用 synchronized 或 CAS 操作)。

  • 当计算函数内部再次尝试操作同一键时:

    • 外层操作已持有该键的锁。

    • 内层操作尝试获取同一锁 → 锁重入被禁止 → 线程阻塞。

与 HashMap 的区别

  • 普通 HashMap 允许重入,但可能引发无限递归(导致 StackOverflowError)。

  • ConcurrentHashMap 为保障线程安全,禁止这种重入行为。

在 ConcurrentHashMap 的源码中,computeIfAbsent 的关键逻辑如下:

if (bin != null) {synchronized (bin) {  // 对哈希桶加锁if (mappingFunction.apply(key) != null) {// 计算过程中再次尝试操作同一键会导致死锁}}
}
  • 锁粒度:以哈希桶(链表或红黑树节点)为单位加锁。

  • 重入限制:同一线程无法重复获取同一锁。

流量因素

由于触发重入锁的请求量较少,少于容器数量,且均在前一天晚上,流量处于低峰期,当时并没有关注cpu波动。流量高峰期时,卡住的容器请求数量增多,导致cpu飙升。此时分析堆栈文件已经有270+线程处于TIME_WAITING状态。

 

"JSF-BZ-22001-29-T-60" #11213 daemon prio=5 os_prio=0 tid=0x00007f0e10012000 nid=0x25e35 runnable [0x00007f07a6d11000]java.lang.Thread.State: TIMED_WAITING (parking)at sun.misc.Unsafe.park(Native Method)at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:338)at com.lmax.disruptor.MultiProducerSequencer.next(MultiProducerSequencer.java:136)at com.lmax.disruptor.MultiProducerSequencer.next(MultiProducerSequencer.java:105)at com.lmax.disruptor.RingBuffer.next(RingBuffer.java:263)at com.engine.disruptor.publisher.ObservedPublisher.publish(ObservedPublisher.java:20)at com.engine.RuleEngine.processRule(RuleEngine.java:81)at com.engine.RuleEngine.processRules(RuleEngine.java:67)at com.engine.RuleEngine.eval(RuleEngine.java:55)at com.engine.RuleEngine$eval.call(Unknown Source)at com.api.strategy.pre.BeforePDPStrategy.eval(script17477914260641953553839.groovy:108)at sun.reflect.GeneratedMethodAccessor3436.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:498)at org.codehaus.groovy.runtime.callsite.PlainObjectMetaMethodSite.doInvoke(PlainObjectMetaMethodSite.java:43)at org.codehaus.groovy.runtime.callsite.PogoMetaMethodSite$PogoCachedMethodSiteNoUnwrapNoCoerce.invoke(PogoMetaMethodSite.java:190)at org.codehaus.groovy.runtime.callsite.PogoMetaMethodSite.callCurrent(PogoMetaMethodSite.java:58)at org.codehaus.groovy.runtime.callsite.AbstractCallSite.callCurrent(AbstractCallSite.java:168)at com.api.strategy.pre.BeforePDPStrategy.execReq(script17477914260641953553839.groovy:37)at com.rule.engine.GroovyRuleEngine.exec(GroovyRuleEngine.java:27)at com.service.core.strategy.PreStrategyExecutor.handle(PreStrategyExecutor.java:112)at com.service.core.baseCore.FilterService.filter(FilterService.java:66)at com.api.PdpSecurityFilterService.filter(PdpSecurityFilterService.java:46)at sun.reflect.GeneratedMethodAccessor2550.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:498)at com.gd.filter.ProviderInvokeFilter.reflectInvoke(ProviderInvokeFilter.java:160)at com.gd.filter.ProviderInvokeFilter.invoke(ProviderInvokeFilter.java:104)at com.gd.filter.ProviderSecurityFilter.invoke(ProviderSecurityFilter.java:42)at com.gd.filter.ProviderConcurrentsFilter.invoke(ProviderConcurrentsFilter.java:61)at com.gd.filter.ProviderTimeoutFilter.invoke(ProviderTimeoutFilter.java:37)at com.gd.filter.ProviderMethodCheckFilter.invoke(ProviderMethodCheckFilter.java:78)at com.gd.filter.ProviderInvokeLimitFilter.invoke(ProviderInvokeLimitFilter.java:57)at com.gd.filter.ProviderHttpGWFilter.invoke(ProviderHttpGWFilter.java:29)at com.gd.filter.ProviderUnitValidationFilter.invoke(ProviderUnitValidationFilter.java:30)at com.gd.filter.ProviderGenericFilter.invoke(ProviderGenericFilter.java:77)at com.gd.filter.ProviderContextFilter.invoke(ProviderContextFilter.java:54)at com.gd.filter.ProviderExceptionFilter.invoke(ProviderExceptionFilter.java:30)at com.gd.filter.SystemTimeCheckFilter.invoke(SystemTimeCheckFilter.java:79)at com.gd.filter.FilterChain.invoke(FilterChain.java:294)at com.gd.server.ProviderProxyInvoker.invoke(ProviderProxyInvoker.java:59)at com.gd.server.JSFTask.doRun(JSFTask.java:108)at com.gd.server.BaseTask.run(BaseTask.java:104)at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)at java.util.concurrent.FutureTask.run(FutureTask.java:266)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)at java.lang.Thread.run(Thread.java:748)Locked ownable synchronizers:- <0x0000000714be3208> (a java.util.concurrent.ThreadPoolExecutor$Worker)

可以看到线程正在调用RingBuffer.next()时,因Disruptor 环形缓冲区(RingBuffer)已满,无法立即获取下一个可用的序列号(Sequence),导致线程进入短暂的等待状态(通过LockSupport.parkNanos()实现)。

Disruptor 的工作机制

  • Disruptor 是一个高性能的无锁环形队列,用于生产者和消费者之间的数据交换。
  • 生产者调用RingBuffer.next()获取下一个可写入的序列号。
  • 如果缓冲区已满(生产者速度超过消费者),生产者需要等待直到有空间可用。

代码路径

  • MultiProducerSequencer.next()的实现会检查缓冲区是否有可用空间。
  • 如果无可用空间,会调用LockSupport.parkNanos(nanos),让线程进入TIMED_WAITING状态,等待一段时间后重试(避免忙等)

TIMED_WAITING 的含义

  • 线程没有阻塞在 I/O 或同步锁上,而是通过parkNanos()主动挂起,等待条件(缓冲区空间)满足。
  • 这是一种性能优化机制,避免线程因自旋(spin-wait)浪费 CPU 资源。

这里其实是线程数增加的原因。因为obs-rule-worker- - 1是disruptor的一个消费线程,它一直自死锁,无法处理当前任务,导致RingBuffer 逻辑上已满,生产者无法申请新写入位置,生产者线程JSF-BZ-22001-29-T-XX,在RingBuffer.next()时通过LockSupport.parkNanos() 进入TIMED_WAITING 状态,接收到新的请求发现线程不够用,又新建了线程,这也就是第一个现象 线程数突增的原因。新增的线程在RingBuffer.next()时也会通过LockSupport.parkNanos() 进入TIMED_WAITING,这也就是JSF监控看到活跃线程突增后下降(下降原因:TIMED_WAITING状态的线程超时时间到期会销毁),但服务总线程数上升后保持不变的原因。

相关文章:

  • 单片机设计_四轴飞行器(STM32)
  • 开源STM32F429汽车仪表盘基于LVGL界面
  • Rust 学习笔记:关于泛型的练习题
  • 打破性能瓶颈:用DBB重参数化模块优化YOLOv8检测头
  • 【Leetcode 每日一题】3356. 零数组变换 II
  • 极大似然估计与机器学习
  • 【图像大模型】深度解析RIFE: 基于中间流估计的实时视频插帧算法
  • 代码随想录算法训练营第60期第四十三天打卡
  • 高级学习算法(神经网络 决策树)
  • 如何用JAVA手写一个Tomcat
  • Web服务器(Tomcat)
  • LabVIEW风机状态实时监测
  • tomcat知识点
  • labview硬件部分——压力测量
  • LabVIEW中EtherCAT从站拓扑离线创建及信息查询
  • linux中安装jdk(Java环境),tomcat
  • labview硬件部分——温度测量
  • 【容易坑】mybatis中使用if标签比较两个字符串是否相等
  • Access链接Azure SQL
  • ubuntu 搭建FTP服务,接收部标机历史音视频上报服务器
  • 网站建设功能介绍/市场营销师报名官网
  • 做网站什么笔记本好用/发布外链的平台有哪些
  • java做网站访问量并发/app推广引流方法
  • 速成建站/游戏如何在网上推广
  • 公司名高端大气不重名/优化设计答案
  • 做牙的网站叫什么/北京网站优化专家