当前位置: 首页 > news >正文

linux crash工具详解

crash 是 Linux 系统中用于分析内核转储文件(如 vmcore 或 kdump 生成的 dump 文件)的核心工具。它结合了调试符号和内核数据结构,能够直观地查看崩溃时的系统状态。以下是其详细使用方法及核心功能解析:

一、安装与准备

1. 安装 crash
  • Debian/Ubuntu:

    sudo apt install crash
  • CentOS/RHEL/OpenEuler:

    sudo yum install crash
2. 安装调试符号

必须安装与内核版本完全匹配的调试符号包,否则无法解析内核数据结构:

  • Debian/Ubuntu:

    sudo apt install linux-image-$(uname -r)-dbg
  • CentOS/RHEL:

    sudo yum install kernel-debuginfo-$(uname -r)
3. 验证文件

确保以下文件存在:

  • vmlinux:内核的未压缩符号文件(通常位于 /usr/lib/debug/lib/modules/$(uname -r)/vmlinux)。

  • vmcore:内核转储文件(默认在 /var/crash 目录下)。

二、启动 crash

基本语法
crash [vmlinux] [vmcore] [options]

示例:

crash /usr/lib/debug/lib/modules/5.4.0-80-generic/vmlinux /var/crash/20231010/vmcore
常用选项
选项说明
-s启动后直接进入交互式命令行(默认行为)
-d显示调试信息(用于排查工具自身问题)
-i [script]启动时自动执行预定义的脚本文件

三、核心功能与命令

1. 基本状态查看
命令说明
help查看所有支持的命令及简要说明
sys显示系统基本信息(内存、CPU、内核版本等)
kmem -i查看内存使用统计(类似 free 命令的输出)
mod列出已加载的内核模块

示例:

crash> sysKERNEL: /usr/lib/debug/lib/modules/5.4.0-80-generic/vmlinuxDUMPFILE: /var/crash/20231010/vmcoreCPUS: 4DATE: Thu Oct 10 15:30:00 2023UPTIME: 02:15:00
LOAD AVERAGE: 0.12, 0.08, 0.06TASKS: 512NODENAME: server01RELEASE: 5.4.0-80-genericVERSION: #91-Ubuntu SMP Thu Jul 15 19:09:17 UTC 2021MACHINE: x86_64  (2194 Mhz)MEMORY: 8 GB
2. 崩溃上下文分析
命令说明
bt显示崩溃时的调用栈(Backtrace)
bt -a显示所有 CPU 的调用栈
ps列出崩溃时的所有进程状态
log查看内核日志(dmesg 的崩溃前内容)
irq查看中断状态

示例:

crash> bt
PID: 0      TASK: ffff88807c0a0000  CPU: 0   COMMAND: "swapper/0"#0 [ffff88807e4c3e10] crash_nmi_callback at ffffffff810e3d20#1 [ffff88807e4c3e60] nmi_handle at ffffffff810e3a80#2 [ffff88807e4c3eb0] default_do_nmi at ffffffff810e3c10#3 [ffff88807e4c3ed0] do_nmi at ffffffff810e3d40#4 [ffff88807e4c3ef0] end_repeat_nmi at ffffffff82000b50[exception RIP: native_safe_halt+18]RIP: ffffffff810c1b32  RSP: ffff88807e4c3fa0  RFLAGS: 00000246RAX: 0000000000000000  RBX: 0000000000000000  RCX: 0000000000000000RDX: 0000000000000000  RSI: 0000000000000000  RDI: 0000000000000000RBP: ffff88807e4c3fa0   R8: 0000000000000000   R9: 0000000000000000R10: 0000000000000000  R11: 0000000000000000  R12: ffffffff8223d200R13: 0000000000000000  R14: 0000000000000000  R15: 0000000000000000CS: 0010  SS: 0018
--- <NMI exception stack> ---
3. 内存与数据结构分析
命令说明
struct [name] [addr]查看指定地址的内核结构体内容(如 struct task_struct
rd [addr] [length]以十六进制格式读取内存数据
search [-u] [value]在内存中搜索特定值(-u 表示按无符号整数搜索)
vm -p [PID]查看指定进程的虚拟内存布局(类似 /proc/[PID]/maps

示例:

crash> struct task_struct ffff88807c0a0000
struct task_struct {state = 0,stack = 0xffffc900001bc000,usage = {counter = 2},flags = 69238894,ptrace = 0,...
}
4. 进程与线程分析
命令说明
ps -a列出所有进程(包括内核线程)
task [addr]查看指定任务的详细信息
set [PID]切换到指定进程的上下文
files [PID]查看进程打开的文件描述符

示例:

crash> ps -aPID    PPID  CPU       TASK        ST  %MEM     VSZ    RSS  COMM0      0   0  ffff88807c0a0000  RU   0.0       0      0  [swapper/0]1      0   1  ffff88807c0a0140  IN   0.0   19356   3208  systemd2      0   2  ffff88807c0a0280  IN   0.0       0      0  [kthreadd]...
5. 硬件相关分析
命令说明
bt -f显示调用栈及函数参数
dis [addr]反汇编指定地址的代码
regs查看寄存器状态
kmem -s检查内存泄漏或损坏

四、实战案例:分析内核 panic

步骤 1:定位崩溃点
crash> log | grep "Kernel panic"
[ 1234.567890] Kernel panic - not syncing: Fatal exception
步骤 2:查看调用栈
crash> bt
#5 [ffff88807e4c3e10] panic at ffffffff810e3d20
#6 [ffff88807e4c3e60] oops_end at ffffffff810e3a80
...
步骤 3:检查相关进程
crash> ps | grep -E "PID|1234"PID    PPID  CPU  COMMAND1234    567   2   faulty_driver
步骤 4:分析驱动代码
crash> dis ffffffffc0123456  # 反汇编崩溃地址的代码
0xffffffffc0123456 <faulty_func+22>: mov    0x0(%rbp),%rax
0xffffffffc012345a <faulty_func+26>: test   %rax,%rax
0xffffffffc012345d <faulty_func+29>: je     0xffffffffc0123470

五、注意事项

  1. 符号一致性
    必须保证 vmlinux 和 vmcore 的内核版本完全一致,否则 crash 会报错 "cannot determine file type"

  2. 权限问题
    分析 vmcore 需要 root 权限,或用户属于 crash 组。

  3. 调试符号路径
    如果 vmlinux 不在默认路径,需通过 -S 选项指定搜索路径:

    crash -S /path/to/debuginfo ...
  4. 自动化分析
    可通过编写脚本批量执行命令:

    crash -i analyze.crashscript vmlinux vmcore

六、扩展工具

  • GDB:适合用户态程序分析,但对内核支持有限。

  • makedumpfile:压缩转储文件,减少存储占用。

  • drgn:新一代内核调试工具,支持 Python 脚本化分析。

通过 crash 工具,开发者可以深入分析内核崩溃的根本原因(如空指针解引用、内存越界等),快速定位问题代码。熟练掌握其命令和调试技巧,是 Linux 系统故障排查的核心能力之一。

相关文章:

  • 第R8周:RNN实现阿尔兹海默病诊断(pytorch)
  • jupyter notebook运行简单程序
  • 基于EFISH-SCB-RK3576工控机/SAIL-RK3576核心板的KTV点歌主机技术方案‌(国产化替代J1900的全场景技术解析)
  • uniapp开发06-视频组件video的使用注意事项
  • 交互式入门:点击绽放的樱花树(花瓣飘落动画)
  • 【论文笔记】SOTR: Segmenting Objects with Transformers
  • 「OC」源码学习——objc_class的bits成员探究
  • Dify 快速构建和部署基于LLM的应用程序
  • ModBus协议详解:从基础概念到C#实现RTU与TCP通讯
  • Spring Boot配置文件详解:从入门到精通
  • 养生小锦囊:开启健康生活新模式
  • 16. Qt系统相关:事件、定时器
  • 信息系统项目管理师-软考高级(软考高项)​​​​​​​​​​​2025最新(七)
  • 学习Linux的第二天
  • 《架构安全原则》解锁架构安全新密码
  • labuladong刷题day3-数组使用双指针技巧
  • python打卡day16
  • kotlin 03flow-stateFlow和sharedFlow企业中使用
  • 网络原理 TCP/IP
  • Excel 查询之 iNDEX与MATCH组合
  • 阿曼宣布美国与胡塞武装达成停火协议
  • 美政府称不再对哈佛大学提供联邦资助
  • 美CIA发布视频“招募中国官员窃取机密”,外交部:赤裸裸的政治挑衅
  • AI世界的年轻人|“热潮下要有定力”,她的目标是让机器人真正步入家庭
  • 五一档7.47亿收官:《水饺皇后》领跑;男观众占比增多
  • 伯克希尔董事会投票决定:阿贝尔明年1月1日起出任CEO,巴菲特继续担任董事长