汇编语言深度指南:从基础到字符串操作
基础知识
CPU简介
CPU是计算机的核心,负责:
- 执行机器指令:解码并执行二进制指令
mov eax, 5 ; 将值5移动到EAX寄存器
- 暂存少量数据:通过内部寄存器快速存取
- 访问存储器:读写内存数据
mov [0x1000], eax ; 将EAX值存入内存地址0x1000
汇编语言概念
机器指令
二进制代码,如B8 05 00 00 00
对应mov eax, 5
汇编格式指令
add eax, ebx ; 操作码 + 操作数
汇编语言的优缺点
优点 | 缺点 |
---|---|
直接硬件控制 | 学习曲线陡峭 |
极致性能优化 | 可移植性差 |
小内存占用 | 开发效率低 |
实时性强 | 调试困难 |
数据的表示和储存
数据表示
- 二进制:
01011010
- 十六进制:
0x5A
- ASCII:
'A' = 65
基本数据类型
类型 | 大小 | 范围 | 声明示例 |
---|---|---|---|
字节 | 8位 | 0-255 | db 0x55 |
字 | 16位 | 0-65535 | dw 0x1234 |
双字 | 32位 | 0-4,294,967,295 | dd 0x12345678 |
字符串 | 可变 | ASCII序列 | db 'Hello', 0 |
数据存储
- 小端序:低字节在低地址
dd 0x12345678 ; 内存: 78 56 34 12
IA-32处理器基本功能
通用寄存器及其使用
寄存器 | 主要用途 | 子寄存器 | 示例 |
---|---|---|---|
EAX | 累加器 | AX, AH, AL | mov eax, 10 |
EBX | 基址寄存器 | BX, BH, BL | mov ebx, [mem] |
ECX | 计数器 | CX, CH, CL | mov ecx, 100 |
EDX | 数据寄存器 | DX, DH, DL | mul edx |
ESI | 源索引 | SI | lodsb |
EDI | 目的索引 | DI | stosb |
EBP | 基址指针 | BP | mov ebp, esp |
ESP | 栈指针 | SP | push eax |
标志寄存器(EFLAGS)
标志 | 含义 | 检查指令 | 设置条件 |
---|---|---|---|
CF | 进位标志 | JC, JNC | 无符号溢出 |
ZF | 零标志 | JZ, JNZ | 结果为零 |
SF | 符号标志 | JS, JNS | 结果为负 |
OF | 溢出标志 | JO, JNO | 有符号溢出 |
PF | 奇偶标志 | JP, JNP | 低8位1的个数为偶 |
AF | 辅助进位 | - | BCD运算 |
cmp eax, ebx
jg greater ; 有符号大于跳转
寻址方式
- 立即寻址:
mov eax, 5
- 寄存器寻址:
mov ebx, eax
- 直接寻址:
mov eax, [0x4000]
- 寄存器间接:
mov eax, [ebx]
- 基址变址:
mov eax, [ebx+esi*4]
- 相对寻址:
mov eax, [array+4]
常用条件跳转指令
指令 | 含义 | 检查条件 |
---|---|---|
JE/JZ | 等于/零 | ZF=1 |
JNE/JNZ | 不等于/非零 | ZF=0 |
JC | 进位 | CF=1 |
JNC | 无进位 | CF=0 |
JA | 高于(无符号) | CF=0 & ZF=0 |
JB | 低于(无符号) | CF=1 |
JG | 大于(有符号) | ZF=0 & SF=OF |
JL | 小于(有符号) | SF≠OF |
cmp eax, 100
jae above_equal ; 无符号大于等于
堆栈和堆栈操作
push eax ; ESP -= 4, [ESP] = EAX
pop ebx ; EBX = [ESP], ESP += 4
程序设计初步
堆栈作用
过程调用和返回指令
call my_function ; 压入返回地址
; ...
my_function:ret ; 弹出返回地址
参数传递
push 10 ; 参数2
push 20 ; 参数1
call addxy
add esp, 8 ; 清理栈
局部变量
my_func:push ebpmov ebp, espsub esp, 8 ; 分配8字节局部变量mov [ebp-4], eax ; 使用局部变量; ...mov esp, ebp ; 清理局部变量pop ebpret
乘法运算全解析
1. 8位乘法(MUL/IMUL)
无符号乘法(MUL):
mov al, 50 ; 被乘数 (8位)
mov bl, 10 ; 乘数 (8位)
mul bl ; AX = AL * BL
; 结果:AX = 0x01F4 (500)
有符号乘法(IMUL):
mov al, -5 ; 被乘数 (8位有符号)
mov bl, 10 ; 乘数 (8位有符号)
imul bl ; AX = AL * BL
; 结果:AX = 0xFFCE (-50)
特性对比:
特性 | MUL | IMUL |
---|---|---|
操作数位数 | 8/16/32 | 8/16/32 |
结果存储 | AX/DX:AX/EDX:EAX | 同MUL |
符号处理 | 无符号 | 有符号 |
指令周期 | 11-18 | 10-21 |
2. 16位乘法
无符号乘法:
mov ax, 5000 ; 被乘数
mov bx, 100 ; 乘数
mul bx ; DX:AX = AX * BX
; 结果:DX:AX = 0x0007:0xA120 (500000)
有符号乘法(单操作数):
mov ax, -2000
mov bx, 300
imul bx ; DX:AX = AX * BX
; 结果:DX:AX = 0xFFF9:0xE700 (-600000)
有符号乘法(双操作数):
mov ax, 200
imul ax, 30 ; AX = 200 * 30
; 结果:AX = 6000
3. 32位乘法
标准形式:
mov eax, 500000
mov ebx, 1000
mul ebx ; EDX:EAX = EAX * EBX
; 结果:EDX:EAX = 0x0001DCD6:0x50000000 (500000000)
高效形式(IMUL三操作数):
mov ebx, 1234
imul eax, ebx, 56 ; EAX = 1234 * 56
; 比等效的 mov+imul 快30%
除法运算深度剖析
1. 8位除法(DIV/IDIV)
无符号除法(DIV):
mov ax, 100 ; 被除数 (16位)
mov bl, 3 ; 除数 (8位)
div bl ; AL=商, AH=余数
; 结果:AL=33(0x21), AH=1
有符号除法(IDIV):
mov ax, -100 ; 被除数
mov bl, 3 ; 除数
idiv bl ; AL=-33, AH=-1
2. 16位除法
标准形式:
mov dx, 0 ; 清零高位
mov ax, 10000 ; 被除数低16位
mov bx, 300 ; 除数
div bx ; AX=商, DX=余数
; 结果:AX=33(0x21), DX=100
有符号扩展(CDQ前身):
mov ax, -10000
cwd ; 将AX符号扩展到DX
mov bx, 300
idiv bx ; AX=-33, DX=-100
3. 32位除法
无符号除法:
mov edx, 0 ; 清零高位
mov eax, 100000 ; 被除数低32位
mov ebx, 3000 ; 除数
div ebx ; EAX=商, EDX=余数
; 结果:EAX=33, EDX=1000
有符号扩展(CDQ):
mov eax, -100000
cdq ; 将EAX符号扩展到EDX
mov ebx, 3000
idiv ebx ; EAX=-33, EDX=-1000
分支程序设计
cmp eax, ebx
je equal
jl less
jg greaterequal:; 相等处理jmp endless:; 小于处理jmp endgreater:; 大于处理end:; 继续执行
循环程序设计
mov ecx, 10 ; 循环计数器
loop_start:; 循环体dec ecxjnz loop_start; 或使用LOOP指令
mov ecx, 10
loop_label:; 循环体loop loop_label
子程序设计
; 计算两数之和
addxy PROC x:DWORD, y:DWORDmov eax, xadd eax, yret
addxy ENDP; 调用
push 20
push 10
call addxy
add esp, 8
字符串操作
基本字符串指令
指令 | 功能 | 操作 |
---|---|---|
MOVSB | 移动字节 | [ESI] → [EDI], ESI±1, EDI±1 |
STOSB | 存储字节 | AL → [EDI], EDI±1 |
LODSB | 加载字节 | [ESI] → AL, ESI±1 |
CMPSB | 比较字节 | [ESI] - [EDI], 设置标志 |
SCASB | 扫描字节 | AL - [EDI], 设置标志 |
方向标志控制
cld ; 清除方向标志 (向前)
std ; 设置方向标志 (向后)
字符串复制示例
mov esi, source_str
mov edi, dest_str
mov ecx, len
cld ; 正向移动
rep movsb ; 重复复制直到ECX=0
字符串比较示例
mov esi, str1
mov edi, str2
mov ecx, len
cld
repe cmpsb ; 相等时继续比较
jne different
字符串搜索示例
mov edi, buffer
mov ecx, buflen
mov al, 'A' ; 搜索字符'A'
cld
repne scasb ; 不相等时继续
je found
高级字符串操作
; 计算字符串长度
strlen PROC str_ptr:DWORDmov edi, str_ptrxor eax, eaxmov ecx, -1repne scasb ; 搜索0字节not ecxdec ecx ; ECX = 长度mov eax, ecxret
strlen ENDP; 字符串转换大写
toupper PROC str_ptr:DWORDmov esi, str_ptr
upper_loop:lodsbcmp al, 0je donecmp al, 'a'jb skipcmp al, 'z'ja skipsub al, 32 ; 转大写mov [esi-1], al
skip:jmp upper_loop
done:ret
toupper ENDP
性能优化技巧
1. 循环展开
mov ecx, 100/4 ; 每次迭代处理4个元素
loop_start:; 处理元素1; 处理元素2; 处理元素3; 处理元素4loop loop_start
2. 避免内存访问瓶颈
; 不好:多次内存访问
add [var1], eax
add [var2], ebx; 更好:使用寄存器
mov ecx, [var1]
add ecx, eax
mov [var1], ecxmov edx, [var2]
add edx, ebx
mov [var2], edx
3. 使用条件移动避免分支
; 传统分支
cmp eax, ebx
jg greater
mov ecx, eax
jmp end
greater:mov ecx, ebx
end:; 使用条件移动
cmp eax, ebx
cmovg ecx, eax ; 若大于则ECX=EAX
cmovle ecx, ebx ; 否则ECX=EBX
调试技巧
1. 使用调试器
int 3 ; 设置断点
2. 寄存器检查
; 在关键点插入空操作
nop
3. 内存查看
; 标记关键内存区域
important_data db 'DEBUG', 0
结语
汇编语言作为最接近硬件的编程语言,提供了无与伦比的控制能力和性能优势。通过掌握:
- CPU工作原理和寄存器使用
- 寻址方式和指令集
- 过程调用和堆栈管理
- 分支和循环结构
- 字符串操作优化
开发者能够编写出高效、紧凑的底层代码。虽然现代高级语言在开发效率上更有优势,但在性能关键领域(如操作系统内核、嵌入式系统、高性能计算等),汇编语言仍然不可替代。