当前位置: 首页 > news >正文

Linux(ftrace)__mcount的实现原理

Linux 内核调试工具ftrace 之(_mcount的实现原理)

ftrace 是 Linux 内核中的一种跟踪工具,主要用于性能分析、调试和内核代码的执行跟踪。它通过在内核代码的关键点插入探针(probe)来记录函数调用和执行信息。这对于开发者排查问题、优化性能或者理解内核行为非常有用。

linux中主要支持两种ftrace的实现方式:

  1. _mcount机制,(主要在内核为5.10前版本)
  2. NOP指令动态插桩机制(主要在内核为5.10及以后版本),见文章《ftrace之双nop机制实现原理》

下面将分别深入介绍两种机制的实现原理:

一、_mcount机制的实现

 * Gcc with -pg will put the following code in the beginning of each function:
 *      mov x0, x30
 *      bl _mcount
 *	[function's body ...]
 * "bl _mcount" may be replaced to "bl ftrace_caller" or NOP if dynamic
 * ftrace is enabled.
  • gcc编译内核时加上 -pg 选项将会在每个支持被插桩的函数前面插入mov x0, x30bl _mcount指令。
  • 如果开启了动态插桩,那bl _mcount会被bl ftrace_callerNOP指令替换,当需要对该函数进行追踪时,将重新插入bl _mcount,取消追踪时会重新替换为bl ftrace_callerNOP指令。这样会降低ftrace对性能的损耗。

_mcount入口的分析

  1. 下面是实际的编译的驱动函数汇编代码:
    _mcount被插桩在函数的b74地址处(同样mov x0, x30也被插桩)。
0000000000000b58 <pcie_adc_ioctl>:
     b58:       a9bd7bfd        stp     x29, x30, [sp, #-48]!
     b5c:       910003fd        mov     x29, sp
     b60:       a90153f3        stp     x19, x20, [sp, #16]
     b64:       d50320ff        xpaclri
     b68:       2a0103f4        mov     w20, w1
     b6c:       aa1e03e0        mov     x0, x30
     b70:       aa0203f3        mov     x19, x2
     b74:       94000000        bl      0 <_mcount>
     b78:       90000000        adrp    x0, 0 <__stack_chk_guard>
     b7c:       f9400001        ldr     x1, [x0]
     b80:       f90017e1        str     x1, [sp, #40]
  1. 插桩的两条指令并不是插入在函数的最前面第一、二地址处,而是在该函数将该函数的栈分配好以及保存好现场后再进行插桩。
  • 下述的三点是编译器默认的规定(x0-x8 and x18-x30 are live (x18 holds the Shadow Call Stack pointer), and x9-x17 are safe to clobber.)即:
    • 将父函数的FP、父函数的返回地址lr入栈(即x29x30)。
      • stp x29, x30, [sp, #-48]!保护FPlr以及函数栈的分配
    • x18~x28中后续函数体要用到的寄存器进行入栈保存,如果用不到则不用入栈保存
      • stp x19, x20, [sp, #16]
    • 如果x0~x7中为函数传参则也需要将对应的寄存器进行保存(一般保存到x18~x26寄存器中),参数的传递一般是前8个参数由x0~x7寄存器,后面的参数都有栈进行传递。所以在被调用函数中如果要用到调用者传入的寄存器中的参数就需要保存。
      • mov w20, w1
      • mov x19, x2
      • 由于在该函数中并没有用到第一个参数,所以编译器就进行优化了,没有进行x0寄存器值保存。
  • 在上面的现场保存后函数栈的分布如下图:

在这里插入图片描述

  1. 然后跳转到_mcount
.macro mcount_enter
	stp	x29, x30, [sp, #-16]!
	mov	x29, sp
.endm
SYM_FUNC_START(_mcount)
	mcount_enter

	ldr_l	x2, ftrace_trace_function
	adr	x0, ftrace_stub
	cmp	x0, x2			// if (ftrace_trace_function
	b.eq	skip_ftrace_call	//     != ftrace_stub) {

	mcount_get_pc	x0		//       function's pc
	mcount_get_lr	x1		//       function's lr (= parent's pc)
	blr	x2			//   (*ftrace_trace_function)(pc, lr);

skip_ftrace_call:			// }
#ifdef CONFIG_FUNCTION_GRAPH_TRACER
	ldr_l	x2, ftrace_graph_return
	cmp	x0, x2			//   if ((ftrace_graph_return
	b.ne	ftrace_graph_caller	//        != ftrace_stub)

	ldr_l	x2, ftrace_graph_entry	//     || (ftrace_graph_entry
	adr_l	x0, ftrace_graph_entry_stub //     != ftrace_graph_entry_stub))
	cmp	x0, x2
	b.ne	ftrace_graph_caller	//     ftrace_graph_caller();
#endif /* CONFIG_FUNCTION_GRAPH_TRACER */
	mcount_exit
SYM_FUNC_END(_mcount)
  • 进去也是对x29, x30(FP 和 LR)进行保存(FP为栈基指针)

  • 这时候的栈分布如下图:

在这里插入图片描述

  • mcount_get_pc x0指令取到追踪函数B的地址的分析:
    • mcount_get_pc x0 -> ldr x0, [x29, #8]可以看出是FP_M + 8的地址处的值给x0,即LR_B给到x0,刚好LR_B就是B中bl _mcount指令下一条指令地址。
  • mcount_get_lr x1指令取到调用者函数的地址的分析:
    • mcount_get_lr x1 -> ldr x1, [x29] 以及 ldr x1, [x1, #8],可以看出第一条指令ldr x1, [x29]从FP_M的地址处取到内容FP_B存到x1中,然后第二条指令ldr x1, [x1, #8]从x1 + 8(= FP_B + 8)地址处取到内容LR_A给到x1,这样就取到了A的LR地址,即调用者函数的返回地址。
  1. 经过上面的分析可以看到对于调用者A以及被追踪者B函数的内容以及返回地址都可以拿到并保存。
  2. 接下来就是进入对应的追踪器执行。
    1. 保存必要的信息,比如LR_A、LR_B、FP_A、FP_B等,并做其他ftrace的信息处理,然后将BL到LR_B中继续执行完B函数(进入B函数时LR寄存器的地址为实际trace回调函数中的地址)。
    2. 当B函数执行完后,返回到trace回调函数,在trace函数中做该被追踪函数B的记录结尾,然后将直接返回到函数A继续执行了。
  3. 对于超过8个参数的参数读取也不受限制,直接通过父函数的FP指针访问(并没有破坏该函数的栈)。
    至此bl _mcount机制的实现原理已经解释完,其他的就是对ftrace具体回调函数中的一些工作,这里就不再说明(主要是记录函数调用运行的一些信息,并放入到ring buf中,开放应用层接口供应用层查看)。大致跳转流程图如下:

在这里插入图片描述

具体的ftrace操作

见文章《ftrace-内核调试工具》

相关文章:

  • 大白话html第六章HTML 与后端交互、优化网页性能
  • 使用UA-SPEECH和TORGO数据库验证自动构音障碍语音分类方法
  • ArcGIS Pro高级技巧:高效填充DEM数据空洞
  • Python import 机制与文件路径问题解析
  • vim:基础配置
  • vcredist_x64 资源文件分享
  • Mastercam出现提示“Mastercam提示没有许可证,你有激活码吗”的报错的解决方案
  • 计算机网络——详解TCP三握四挥
  • Linux软硬链接
  • SpringBoot 日志 与 门面模式(外观模式)
  • Anaconda安装(2024最新版)
  • Iceberg Catalog
  • AWS中使用CloudFront分发API Gateway
  • 自学微信小程序的第六天
  • 如何评估所选择的PHP后端框架的性能?
  • 【设计模式】单例模式|饿汉模式|懒汉模式|指令重排序
  • DockerでOracle Database 23ai FreeをセットアップしMAX_STRING_SIZEを拡張する手順
  • golang 内存对齐和填充规则
  • 【源码】【Java并发】【线程池】邀请您从0-1阅读ThreadPoolExecutor源码
  • uvm中的run_test作用
  • 从事网站开发方向/哪有恶意点击软件买的
  • 东莞网站建设音乐盒/焦作网站seo
  • 中国建设教育协会网站打不开/新乡百度关键词优化外包
  • 嵊州网站/如何自己建立一个网站
  • 建设工程质量协会网站/学网络营销有用吗
  • 网站建设小程序公众号推广开发/当日alexa排名查询统计