软死锁的检测--看门狗
软死锁(Soft Lockup)检测中,看门狗(Watchdog)的核心原理是 通过周期性检查 CPU 调度是否正常,判断是否因任务长时间霸占 CPU 导致无法调度其他任务,以下展开说明:
1. 基础机制:定时器 + 内核线程
- 定时器触发:系统为每个 CPU 启动高精度定时器(hrtimer) ,周期性执行
watchdog_timer_fn
函数(类似 “定时检查” 逻辑),默认间隔由watchdog_thresh
控制(通常初始 10 秒,可通过sysctl
调整 )。 - 内核线程辅助:同时,为每个 CPU 创建优先级最高的内核线程(如
watchdog/X
,X
为 CPU 编号 ),线程运行时会调用__touch_watchdog()
更新时间戳(watchdog_touch_ts) ,标记 “CPU 调度正常”。
2. 检测逻辑:对比时间戳判断 “僵死”
定时器到期后,watchdog_timer_fn
会执行关键检查:
- 读取当前时间
now
,并获取上一次 “喂狗” 的时间戳touch_ts
(即线程更新的watchdog_touch_ts
)。 - 计算时间差
now - touch_ts
,若差值 超过watchdog_thresh
阈值(比如默认 10 秒),则认为:
CPU 上的任务长期霸占资源,导致内核线程无法正常调度(连优先级最高的看门狗线程都无法更新时间戳),判定发生 软死锁 。
简单说:若 “定时检查” 发现 “喂狗” 超时,说明 CPU 调度被长时间阻塞,触发软死锁告警。
3. 响应动作:告警与故障处理
- 基础告警:检测到软死锁时,内核会打印堆栈跟踪(
dmesg
日志能看到进程调用链 ),方便定位是哪个任务 / 函数长期占用 CPU。 - 进阶配置:可通过
kernel.softlockup_panic
等参数,设置触发软死锁时直接让系统panic
(内核崩溃),或结合panic_timeout
自动重启,避免系统长期僵死。
4. 典型场景与原理适配
比如某 CPU 上有个无限循环的内核任务(如驱动 bug 导致死循环 ),会持续霸占 CPU,使看门狗线程无法获得调度权 → 时间戳无法更新 → 定时器检查超时 → 触发软死锁告警。这也体现了看门狗的核心价值:用 “定时喂狗 - 超时检测” 机制,暴露 CPU 调度异常,让运维 / 开发能快速定位系统 “僵死” 根源。
总结来说,软死锁看门狗是通过定时检查 CPU 调度心跳(时间戳) 的机制,发现并告警 “任务长期阻塞 CPU 导致无法调度” 的问题,本质是用 “周期性验证” 确保系统调度的活性 。