当前位置：首页 > news >正文

微服务故障排查

news 2025/11/16 6:28:27

背景说明

刚刚接手一个多个团队开发3年的项目，对接了19个业态会员，深度对接了1个C端业务系统。系统以中台的形式存在——会员中台。但系统没有采用大数据中台的模式，而是采用MySQL作为所有数据承载的载体，这个也是导致后面问题发生的前置条件。

现象描述

2025年9月24号早上6点半，发现游湖北小程序无法正常访问，经过半个小时的排查发现是大会员接口连接超时，最终发现是大会员平台故障，直接表现就是7个服务中的job服务不在线了。

排查流程

第一步：服务挂了，优先重启job任务，运维同学启动job任务发现，后台jar启动正常，但Nacos中无法注册成功。

第二步：重启全部服务，结果发现job服务还是无法启动注册成功。

第三步：排查日志发现redis连接超时情况，再次重启redis，重启全部服务，最终job任务还是无法正常注册到Nacos里面。（内心开始着急了，因为系统运行2个月，目前也没有做版本升级，很奇葩，一般重启服务可以解决的）

第四步：重启Nacos。主要原因是考虑服务可以起来就是注册不成功，因此采用重启nacos怕它假死。重启之后效果是所有服务都无法注册成功（内心崩溃了O(∩_∩)O哈哈~）

第五步：MySQL数据库（依次排查就剩下它了），nacat连接数据库

查看mysql的使用进程：

show processlist

可以看到大量的Waiting for table flush 和Waiting for global read lock（妈呀，终于找到你了）

记录卡死的进程“select count(distinct(t.refund_main_id))

from third_tran_refund_main t, third_tran_main tran”

第一眼看上去，这个sql也很简单呀，怎么卡死了，先不管，kill掉进程，结果所有服务正常启动了。（暂时打通了，松了一口）

解决办法

第一步：测试验证，把“select count(distinct(t.refund_main_id))

from third_tran_refund_main t, third_tran_main tran”语句放到nacat中跑了一下，吓着了，5分钟还没有出结果，我去还真是它的问题。

第二步：检索代码，找到原因

接口类触发点

条件筛查判断点，第三方订单id为null，导致外键关联表没有关联上，最终触发sql超时请求，阻塞进程。

数据库sql语句

第三步：修改代码，外键关联前置，避免出现异常参数为NULL

打包测试环境验证，验证OK紧急升级（原版本中避免直接使用最新的代码，以生产环境的版本为主进行修改，避免二次引入，无法准确定位）

后续改进

针对数据持续增长的情况的情况，需要进行平台架构的调整。

短期快速解决方案：

购买公有云数据库，可以动态实现扩展，对数据库的稳定性有比较好的帮助（例如阿里云）

设置当前数据库MySQL的慢查询监测机制，优先解决慢查询问题，避免短期卡顿

中长期解决方案：

调整架构，将‘商户交易汇总’、‘商品订单流水’、‘商品订单汇总’、‘商户订单汇总’、‘机构交易汇总’等报表功能的数据转移到大数据中心进行处理，单表持续增加并且未来不可预期的数据进行转移。

推荐采用TDengine（涛思时序数据库），因为订单为主，修改的概率会低一些。也可以考虑PostgreSQL作为备选方案。实现增量数据的扩展调整，避免后期数据持续增加带来的数据崩盘的现象。

查看全文

http://www.dtcms.com/a/418414.html

离散时间马尔可夫链

怎么做网站快照网站域名跳转代码html

基于 OpenCV + 深度学习的实时人脸检测与年龄性别识别系统

c++ opencv 复现Fiji 配对拼接算法中的加权融合

中秋国庆双节餐饮零售破局！Deepoc 具身模型外拓板打造 “假日智能运营新范式

瑞安网站建设电话百度商桥接入网站

嵌入式硬件——I.MX6ULL EPIT（增强型周期中断定时器）

降低测试成本缩短测试周期 | 车辆OBD数据采集方案

一级消防工程师考试时间新闻类网站怎么做seo

window显示驱动开发—确定显示适配器上的 VidPN 支持

Kafka05-入门-尚硅谷

Visual Studio 2022

【不背八股】19.GPT-2：不再微调，聚焦零样本

5、焊接质量检验及缺陷分析

【AI】大模型的分析力横评：一次“伪异步”排查后的真实思考

养老院服务质量建设专项网站广州seo关键词优化外包

第一章假设三：走势包含无序运动状态（混沌现象）和有序运动状态（下跌或上涨）

ElementUI-Table 表格实现行拖拽

Logit论文阅读

网站cms建设wordpress模仿app启动广告屏弹窗

21. 一个像素对应多个纹素

设备沉睡的“心跳”难题：BLE休眠后无法被手机唤醒的分析与优化

【计算机基础】网络系列（二）TCP

网站seo整站优化淘宝网站的建设

Python 自动化导出PDF表格：List、Dictionary、Pandas DataFrame和数据库实例演示

GPT-5-Codex Prompting Guide|提示词指南

PDF转图片工具：基于PyQt5的完整实现与深度解析

万兴PDF专家安装教程（附安装包）万兴PDF免费版下载详细安装图文教程

Codeforces Round 1052 (Div. 2) C. Wrong Binary Searchong Binary Search

网站开始怎么做的做网站用php还是html

背景说明

现象描述

排查流程

解决办法

后续改进

相关文章：