当前位置：首页 > news >正文

Linux内存管理章节七：虚拟内存的寻宝图：深入理解页表管理机制

news 2025/9/12 5:22:52

引言

现代操作系统的魔法——让每个进程都生活在独立的4GB虚拟世界中——其核心是虚拟内存。而实现这一魔法的关键硬件是MMU（内存管理单元），关键软件数据结构则是页表（Page Table）。页表是存储在物理内存中的“寻宝图”，MMU凭借它才能将程序使用的虚拟地址（VA）快速翻译成实际访问的物理地址（PA）。本文将深入剖析多级页表如何工作、页表项如何控制权限，以及系统如何管理这块关键数据的缓存——TLB。

一、多级页表遍历过程：逐级寻址的艺术

如果系统简单地为每个进程维护一个“虚拟页号→物理页框号”的扁平大表，那么这张表本身就会大得惊人（32位系统需4MB），而且其中绝大部分条目是空的，造成巨大浪费。

解决方案：多级页表（Multi-Level Page Table）。它是一种树状结构，通过引入“目录”的概念，只为进程实际使用的内存区域创建映射，极大地节省了空间。

我们以经典的x86-32位系统（两级页表） 为例，其虚拟地址被划分为三部分：

31-22 bits (10 bits)	21-12 bits (10 bits)	11-0 bits (12 bits)
页目录索引 (PDI)	页表索引 (PTI)	页内偏移 (Offset)

遍历过程（软件视角，但由MMU硬件自动完成）:

定位页目录：CR3寄存器（在ARM中称为TTBR0/TTBR1）存储着当前进程页全局目录（PGD） 的物理地址。这是寻宝的起点。
第一级查找：PGD → PTE Table
- MMU使用虚拟地址的页目录索引（PDI） 作为下标，在PGD中找到对应的页目录项（PDE）。
- PDE中存储着下一级页表（页表PTE Table）的物理地址。
第二级查找：PTE Table → Physical Page
- MMU使用页表索引（PTI） 作为下标，在PTE Table中找到对应的页表项（PTE）。
- PTE中存储着目标数据所在的物理页框号（PFN）。
合成物理地址：
- MMU将PTE中找到的物理页框号（PFN） 与虚拟地址中的页内偏移（Offset） 组合起来，得到最终的物理地址（PA）。
- 将PA发送到内存总线，完成实际的内存访问。

Virtual Address: 0x12345678
Binary: 0001 0010 0011 0100 0101 0110 0111 1000
Split:
- PDI = bits 31:22 = 0001001000 (0x048)
- PTI = bits 21:12 = 1101000101 (0x345)
- Offset = bits 11:0 = 011001111000 (0x678)1. CR3 -> PGD (Physical)
2. PGD[0x048] -> PDE -> PTE Table (Physical)
3. PTE Table[0x345] -> PTE -> PFN (e.g., 0x00ABC)
4. Physical Address = (PFN << 12) | Offset = (0x00ABC << 12) | 0x678 = 0x00ABC678

64位系统：地址空间更大，通常采用四级页表（PML4, Directory Pointer, Directory, Table），但基本原理完全相同，只是寻址层级更多。

二、页表项格式和权限控制：不只是地址

页表项（PTE）的价值远不止存储一个物理页框号。它更是一道守门人，控制着对内存页的访问权限。不同架构的PTE格式不同，但核心标志位大同小异。

以下是一个简化版的PTE结构（基于x86）：

63      62    52 51      32 31      12 11        0
+-----+-...-+----+--------+-----------+---------+
| NXE | ... | AVL| Phys.  | Page Frame| Flags   |
|     |     |    | Addr   | Number    |         |
+-----+-...-+----+--------+-----------+---------+(PFN)      Flags (bits 0-11):
P - Present (存在位)
R/W - Read/Write (读写位)
U/S - User/Supervisor (用户/管理位)
PWT - Page Write-Through (通写位)
PCD - Page Cache Disable (缓存禁用位)
A - Accessed (访问位)
D - Dirty (脏位)
PS - Page Size (页大小位，用于巨大页)
G - Global (全局位)
...
NXE - No-Execute Enable (禁止执行位，64位特有)

关键权限控制位：

P (Present) 位：最重要的位。如果为1，表示该页当前在物理内存中；如果为0，表示该页已被换出到磁盘，或者尚未分配。访问一个P=0的页会触发缺页异常（Page Fault），由操作系统介入处理。
R/W (Read/Write) 位：
- 0 = 只读
- 1 = 可读可写
- 在用户模式下尝试写一个R/W=0的页会触发页错误。
U/S (User/Supervisor) 位：
- 0 = Supervisor（管理）模式（内核态）才能访问。
- 1 = User（用户）模式也可以访问。
- 这是实现用户态与内核态隔离的硬件基础。用户程序试图访问U/S=0的页（内核数据）会立即被MMU阻止。
NXE (No-Execute Enable) 位：现代CPU的安全基石。如果设置，则禁止从该页执行代码。这可以有效防止堆栈溢出攻击（将恶意代码注入栈或堆并执行）。
A (Accessed) 位和D (Dirty) 位：由MMU自动设置。
- A位：当页被读或写时设置。用于操作系统跟踪哪些页是“活跃的”，辅助页面置换算法（如LRU）。
- D位：当页被写时设置。表示该页已被修改。如果系统要换出该页，必须先将它写回磁盘；如果页是干净的（D=0），直接丢弃即可。

三、 TLB刷新机制：维护缓存一致性

TLB是MMU中缓存页表转换结果的高速缓存。但页表是可能被操作系统修改的（例如修改权限、交换页面、进程切换），这就导致了TLB缓存与内存中页表不一致的问题。

内核必须有一种机制来通知MMU：“你缓存的部分条目已失效，请丢弃它们”。这个过程称为TLB刷新（Flushing）或TLB击落（Shootdown）。

刷新场景：

进程上下文切换：新进程的地址空间与旧进程不同，必须使用新进程的页表。
修改页表项：例如通过mprotect()改变内存权限、页面换入换出（修改P位）、mmap()创建新映射等。
内核销毁页表：例如进程退出，释放其所有内存。

刷新策略（由架构定义指令）：

全部刷新（Full Flush）：
- 最简单粗暴的方式：执行一条指令（如x86的mov cr3, cr3）使整个TLB全部失效。
- 优点：简单。
- 缺点：性能开销大。所有缓存的映射，包括内核的常用映射，都会被清空，导致后续访问出现大量TLB Miss。
按地址刷新（Invalidate Single Entry）：
- 执行一条指令（如x86的invlpg [addr]）仅失效特定虚拟地址对应的TLB条目。
- 优点：精准，性能开销小。
- 缺点：如果需要失效的地址很多，指令数也多。
按上下文刷新（基于ASID）：
- **ASID（Address Space ID）**是现代MMU的一个特性。它为每个进程的TLB条目打上一个标签。
- 进程切换时，无需刷新TLB。只需要将页表基址寄存器（CR3/TTBR）切换到新进程，并同时切换ASID。
- MMU在查找TLB时，会同时比较虚拟地址和ASID。这样，不同进程的相同虚拟地址的映射可以共存于TLB中。
- 只有在修改了某个特定进程的页表时，才需要失效该进程ASID下的特定条目。这是最高效的方式，几乎完全消除了进程切换带来的TLB刷新开销。