当前位置: 首页 > news >正文

ARM指令集(Instruction Set)细节

ARM指令集(Instruction Set)细节

本文旨在深入探讨 ARM 指令集(Instruction Set)的细节。这是一个非常广泛的主题,我会将其分解为关键概念、不同版本的区别以及核心特性,并提供一些示例。

ARM 指令集的核心在于 RISC(精简指令集计算机) 设计哲学,这意味着:

  • 指令数量少且规整:大多数指令长度固定(通常是32位或16位),格式一致,解码简单。
  • 加载-存储架构:只有专门的加载(LDR)和存储(STR)指令可以访问内存。所有算术和逻辑运算都是在寄存器之间进行的。
  • 大量的通用寄存器:拥有16个(在AArch32下)或31个(在AArch64下)通用寄存器,减少了访问内存的次数,提高了效率。

1. 两种主要指令集状态:AArch32 与 AArch64

AArch32/64的全称是 ARM Architecture 32/64-bit

这是理解现代 ARM 指令集的首要概念。ARMv8 架构引入了 64 位执行状态,并向后兼容 32 位。

特性AArch32 (ARM 32-bit)AArch64 (ARM 64-bit)
架构版本ARMv4T 到 ARMv8-A (兼容模式)ARMv8-A 及更高
指令集ARMThumbThumb-2A64
指令长度ARM: 32-bit; Thumb: 16-bit; Thumb-2: 16/32-bit固定 32-bit
通用寄存器16个 (R0-R15),包括:
- R13: SP (堆栈指针)
- R14: LR (链接寄存器)
- R15: PC (程序计数器)
31个 (X0-X30),加上:
- XZR: 零寄存器 (恒为0)
- SP: 堆栈指针 (独立)
程序计数器是通用寄存器 R15不是通用寄存器,无法直接操作
条件执行大多数指令都可以条件执行(通过条件码)只有分支等少数指令可以条件执行
操作数第二个操作数非常灵活(立即数 + 移位/循环)寻址模式更严格,但仍有灵活性

2. AArch32 下的指令集变体

在 32 位世界中,处理器可以在两种主要状态之间切换:

a. ARM 指令集 (32-bit)
  • 特点:高性能、全功能。所有指令都是 32 位宽。
  • 条件执行:这是 ARM 模式的一个标志性特性。几乎每条指令都可以根据 APSR(程序状态寄存器)中的条件标志(N, Z, C, V)来条件地执行。
    • 示例:ADDEQ R0, R1, R2 ; 如果相等(Z=1),则执行 R0 = R1 + R2
  • 灵活的第二个操作数
    • 示例 1: ADD R0, R1, #42 ; 立即数
    • 示例 2: ADD R0, R1, R2 ; 寄存器
    • 示例 3: ADD R0, R1, R2, LSL #3 ; 寄存器 R2 逻辑左移 3 位后的值
    • 示例 4: ADD R0, R1, R2, ROR R3 ; 寄存器 R2 循环右移 R3 位后的值
b. Thumb / Thumb-2 指令集 (16/32-bit)
  • 初衷 (Thumb):提供更高的代码密度。指令是 16 位的,因此占用的内存空间更小。性能通常低于 ARM 模式,因为需要更多指令来完成相同任务。
  • 进化 (Thumb-2):ARMv6T2 及以后版本引入。它混合了 16 位和 32 位指令,在保持高代码密度的同时,提供了接近 ARM 模式的性能。Thumb-2 是现代 Cortex-M 和 Cortex-R 系列处理器唯一支持的指令集状态(它们无法执行传统的 32 位 ARM 指令)。
  • 特点:指令长度可变(2 字节或 4 字节),条件执行能力有限(主要用于分支指令)。

3. AArch64 下的 A64 指令集

这是纯粹的 64 位指令集,设计上吸取了 AArch32 的经验教训。

  • 固定长度:所有指令都是 32 位宽,解码简单。
  • 取消大规模条件执行:只有分支、比较和少数其他指令支持条件执行。这释放了宝贵的指令编码空间,用于其他功能。
  • 新的指令编码:拥有 31 个通用寄存器(X0-X30),64位(X)和32位(W)视图。
    • ADD X0, X1, X2 ; 64位加法
    • ADD W0, W1, W2 ; 32位加法,结果高32位清零
  • 改进的立即数和寻址模式:虽然不如 AArch32 灵活,但仍然功能强大。
  • 零寄存器XZR/WZR 寄存器始终返回 0,简化了许多操作(例如,比较、清零)。
    • 示例:MOV X0, XZR ; 将 X0 清零 (实际上是一条 ORR 指令的别名)

4. 关键指令类别(通用)

a. 数据处理指令
  • 算术运算ADD, ADC (带进位加), SUB, SBC (带借位减), MUL, MLA (乘加)
  • 逻辑运算AND, ORR (或), EOR (异或), BIC (位清除, A AND NOT B)
  • 移位操作LSL (逻辑左移), LSR (逻辑右移), ASR (算术右移), ROR (循环右移)
  • 比较指令CMP (比较,本质上是 SUBS), CMN (负数比较), TST (位测试,本质上是 ANDS), TEQ (相等测试)
b. 加载-存储指令

这是 ARM 架构的基石。

  • 单寄存器传输
    • LDR R0, [R1] ; 从 R1 指向的地址加载一个字到 R0
    • STR R0, [R1] ; 将 R0 中的字存储到 R1 指向的地址
    • 支持前变址、后变址等多种寻址模式:
      • LDR R0, [R1, #4]! ; 前变址:地址 = R1+4,然后 R1 = R1+4
      • LDR R0, [R1], #4 ; 后变址:地址 = R1,然后 R1 = R1+4
  • 多寄存器传输LDM (加载多个), STM (存储多个),用于高效地操作堆栈和内存块。
    • 示例:STMDB SP!, {R4-R11, LR} ; 压栈:将寄存器 R4-R11 和 LR 压入堆栈 (在函数开头)
    • 示例:LDMIA SP!, {R4-R11, PC} ; 出栈:从堆栈恢复 R4-R11,并将返回地址直接装入 PC (函数返回)
c. 分支与控制流指令
  • B label ; 无条件跳转到标签 label
  • BL label ; 分支并链接:跳转到标签,同时将返回地址 (PC+4) 存入 LR (R14)。用于函数调用
  • BX R0 ; 分支并交换指令集(例如,从 ARM 切换到 Thumb,反之亦然)
  • RET X30 ; (A64) 从函数返回,相当于 MOV PC, LR
d. 协处理器和系统指令
  • MRS R0, CPSR ; 将特殊寄存器(如 CPSR)的值移动到通用寄存器 R0
  • MSR CPSR, R0 ; 将 R0 的值移动到特殊寄存器
  • SVC #0x80 ; (AArch32) 发起一个系统调用(软件中断)
  • HVC, SMC ; 用于虚拟化和安全监控调用

5. 条件执行(AArch32 的精华)

条件码附加在指令助记符的后面。条件基于 APSR 中的标志位:

条件码含义标志位测试
EQ相等Z == 1
NE不相等Z == 0
CS/HS进位置位/无符号高于或相同C == 1
CC/LO进位清零/无符号低于C == 0
MI负数N == 1
PL正数或零N == 0
VS溢出V == 1
VC无溢出V == 0
HI无符号高于(C == 1) && (Z == 0)
LS无符号低于或相同(C == 0) || (Z == 1)
GE有符号大于或等于N == V
LT有符号小于N != V
GT有符号大于(Z == 0) && (N == V)
LE有符号小于或等于(Z == 1) || (N != V)
AL总是执行无条件

示例:高效的除法余数计算

; C 代码: if (a > b) { a = a - b; }
; R0 = a, R1 = b
CMP R0, R1       ; 比较 a 和 b
SUBHI R0, R0, R1 ; 如果 a > b (无符号), 则执行 a = a - b
; 这避免了分支指令,提高了效率(无流水线冲刷)。

总结

  • ARM (AArch32):功能强大,灵活性高,以条件执行和灵活的桶式移位器为特点。
  • Thumb-2:代码密度高,性能好,是 Cortex-M 系列的默认和唯一选择。
  • A64 (AArch64):现代 64 位设计,规则化,拥有更多寄存器,专注于性能和能效,用于高端应用处理器。

理解 ARM 指令集的关键在于实践。使用 QEMU 模拟器或一块简单的开发板(如 Raspberry Pi 或 STM32 Nucleo),通过反汇编编译器生成的代码,是学习细节的最佳方式。


文章转载自:

http://ovQURNly.ydrfL.cn
http://ik9XBzZQ.ydrfL.cn
http://MMQIzgeN.ydrfL.cn
http://0ih4SwLz.ydrfL.cn
http://XNzBI4dB.ydrfL.cn
http://uYoCMMoa.ydrfL.cn
http://02VsJ3U5.ydrfL.cn
http://pa27cKkL.ydrfL.cn
http://46FSUkT0.ydrfL.cn
http://wGJN84rq.ydrfL.cn
http://HjmtJWWE.ydrfL.cn
http://pO4CeKPA.ydrfL.cn
http://6hjyfAna.ydrfL.cn
http://XsEosu67.ydrfL.cn
http://DcwpT85o.ydrfL.cn
http://6mvseUrM.ydrfL.cn
http://bj2iKxEZ.ydrfL.cn
http://nLxsc4Ct.ydrfL.cn
http://Zw7daaHI.ydrfL.cn
http://rdPVGWEh.ydrfL.cn
http://SVypjbkM.ydrfL.cn
http://0B9BxvkD.ydrfL.cn
http://bNx6pFeQ.ydrfL.cn
http://rgtrY35g.ydrfL.cn
http://OAouKflv.ydrfL.cn
http://1WiGxsvh.ydrfL.cn
http://ctOKTyZM.ydrfL.cn
http://3NRIvdtf.ydrfL.cn
http://6kSv4raC.ydrfL.cn
http://PkA4Dnx9.ydrfL.cn
http://www.dtcms.com/a/379138.html

相关文章:

  • 28.线程互斥与同步(二)
  • 批量修改图片尺寸大小的免费工具
  • 【vscode】如何离线下载vsxi插件,且在无网环境下离线安装插件-2026最新实验教程
  • 基于浏览器运行的本地大模型语音助手
  • 动态热机械分析测试(DMA):解析材料的粘弹性能
  • 【龙智Atlassian插件】Confluence周报插件上线AI智能总结,一键生成专业报告
  • 因表并行引发的血案【故障处理案例】
  • 实现双向循环链表
  • Flutter Riverpod 3.0 发布,大规模重构下的全新状态管理框架
  • This is Game
  • Git分支管理:从创建到合并冲突解决(二)
  • Elasticsearch 7.15 存储类型详解
  • 深入解析数据结构之栈及其应用
  • (一)昇腾AI处理器技术
  • BUUCTF刷题十一道(14)
  • Linux防火墙-Iptables
  • python访问基于docker搭建的elasticsearch
  • logback-spring.xml文件说明
  • 【PyTorch训练】为什么要有 loss.backward() 和 optimizer.step()?
  • 抖音大数据开发一面(0905)
  • 原生js的轮播图
  • 连接池项目考点
  • ruoyi-flowable-plus框架节点表单的理解
  • js.228汇总区间
  • BERT中文预训练模型介绍
  • 光平面标定建立激光点与世界坐标的对应关系
  • Jmeter执行数据库操作
  • 基于FPGA的图像中值滤波算法Verilog开发与开发板硬件测试
  • 微软Aurora大模型实战:五大数据源驱动、可视化对比与应用
  • 【论文笔记】SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection