虚拟地址空间:从概念到内存管理的底层逻辑
前言
当我们在代码中操作变量、申请内存时,是否想过一个问题:程序所 “看到” 的内存地址,真的是物理硬件中的实际位置吗?答案是否定的。这一切的背后,是操作系统为每个进程构建的一套精妙抽象 —— 虚拟地址空间。
本文将沿着 “概念引入→核心定义→管理机制→存在价值” 的脉络,系统解析虚拟地址空间的底层逻辑:从 “为什么需要虚拟地址” 这一根本问题出发,逐步揭开 “虚拟地址” 与 “虚拟地址空间” 的本质区别,以及操作系统如何通过虚拟内存管理技术,让进程在看似 “独占内存” 的错觉下,安全、高效地共享物理内存资源。无论你是想理解 “多进程为何能安全共存于内存”,还是想搞懂 “程序崩溃时的地址报错究竟指向哪里”,虚拟地址空间都是绕不开的核心知识点。它不仅是操作系统内存管理的基石,更是连接程序逻辑与硬件资源的桥梁。
目录
程序地址空间
引入新概念
虚拟地址
虚拟地址空间(程序 / 进程地址空间)
虚拟内存管理
为什么要有虚拟地址空间?
程序地址空间
在学习C/C++,我们学过临时变量,全局变量,栈,堆等结构,它们的分布是什么呢?
下面的代码来看看。
内存地址演示
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>int g_unval;
int g_val = 100;int main(int argc, char *argv[], char *env[])
{const char *str = "helloworld";printf("code addr: %p\n", main);printf("init global addr: %p\n", &g_val);printf("uninit global addr: %p\n", &g_unval);static int test = 10;char *heap_mem = (char*)malloc(10);char *heap_mem1 = (char*)malloc(10);char *heap_mem2 = (char*)malloc(10);char *heap_mem3 = (char*)malloc(10);printf("heap addr: %p\n", heap_mem);printf("heap addr: %p\n", heap_mem1);printf("heap addr: %p\n", heap_mem2);printf("heap addr: %p\n", heap_mem3);printf("test static addr: %p\n", &test);printf("stack addr: %p\n", &heap_mem);printf("stack addr: %p\n", &heap_mem1);printf("stack addr: %p\n", &heap_mem2);printf("stack addr: %p\n", &heap_mem3);printf("read only string addr: %p\n", str);for(int i = 0; i < argc; i++){printf("argv[%d]: %p\n", i, argv[i]);}for(int i = 0; env[i]; i++){printf("env[%d]: %p\n", i, env[i]);}return 0;
}
程序地址空间:是内存吗???不是内存!!!
程序地址空间也叫进程地址空间(虚拟地址空间),它是一个系统的概念,不是语言层的概念!
证明地址空间不是物理地址
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>int gval=100;int main(){pid_t id=fork();if(id<0){perror("fork");return 1;}else if(id==0){while(1){printf("子:pid:%d,ppid:%d,gval:%d,%p\n",getpid(),getppid(),gval,&gval);gval++;sleep(1);}}else{while(1){printf("父:pid:%d,ppid:%d,gval:%d,%p\n",getpid(),getppid(),gval,&gval); sleep(1);}}return 0;
}
引入新概念
一个进程,一个虚拟地址空间,一个进程需要一个task_struct来描述,每个task_struct对应一个虚拟地址空间。虚拟地址空间的宽度是一个字节。
32位机器=》2^32个地址*1字节=4GB
64位机器=》2^64个地址*1字节
一个进程,一套页表,页表是用来做物理地址和虚拟地址映射的。
最初父子进程指向一样的物理内存,因为虚拟地址是一样的,通过页表映射物理地址。子进程继承父进程。
子进程对变量进行修改?进程具有独立性,操作系统重新分配空间给子进程,将地址重新填充到页表,映射关系进行修改。也就是写实拷贝。
虚拟地址
虚拟地址是操作系统为进程分配的 “逻辑地址编号”,它不是物理内存的实际硬件地址,而是进程 “看到” 的内存地址。
- 例如,C 语言中用
&
取到的变量地址,就是虚拟地址,它只是一个数字(如0x7f8a3b4c5d6e
),不直接对应物理内存的硬件位置。 - 进程对内存的所有操作(读、写、执行),都是通过虚拟地址进行的,无法直接访问物理地址。
虚拟地址空间(程序 / 进程地址空间)
虚拟地址空间是操作系统为每个进程划分的 “虚拟内存范围”,是一个连续的地址区间(比如 32 位系统通常是 0~4GB),包含了进程运行所需的所有内存区域(如代码段、数据段、堆、栈等)。
- 它是进程的 “内存世界观”:每个进程都认为自己独占这一空间,且布局固定(如代码段在低地址,栈在高地址)。
- 本质是操作系统的抽象:通过页表和 MMU(内存管理单元),将虚拟地址空间中的地址映射到实际的物理内存地址,实现 “虚拟地址→物理地址” 的转换。
虚拟地址空间的本质确实是内核维护的一套数据结构(可以理解为一个复杂的 “结构体对象”),用于管理进程对虚拟地址的使用规则和映射关系。
虚拟内存管理
在虚拟地址空间中申请指定大小的空间(调整区域划分)加载程序,申请物理空间,然后填充页表构建映射关系!!!
物理地址转化成虚拟地址,提供给上层用户使用。
mm_struct是个对象,需要开辟空间,需要初始化,加载的时候,进行初始化。
地址空间的区域划分只需要确认区域的开始和结束。知道并划分起始终止地址即可。
struct mm_struct
{ /*...*/
struct vm_area_struct *mmap; /* 指向虚拟区间(VMA)链表 */
struct rb_root mm_rb; /* red_black树 */
unsigned long task_size; /*具有该结构体的进程的虚拟地址空间的⼤⼩*/
/*...*/
8// 代码段、数据段、堆栈段、参数段及环境段的起始和结束地址。
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;
/*...*/}
struct vm_area_struct {
unsigned long vm_start; //虚存区起始
unsigned long vm_end; //虚存区结束
struct vm_area_struct *vm_next, *vm_prev; //前后指针
struct rb_node vm_rb; //红⿊树中的位置
unsigned long rb_subtree_gap;
struct mm_struct *vm_mm; //所属的 mm_struct
pgprot_t vm_page_prot;
unsigned long vm_flags; //标志位
struct {
struct rb_node rb;
unsigned long rb_subtree_last;
} shared;
struct list_head anon_vma_chain;
struct anon_vma *anon_vma;
const struct vm_operations_struct *vm_ops; //vma对应的实际操作
unsigned long vm_pgoff; //⽂件映射偏移量
struct file * vm_file; //映射的⽂件
void * vm_private_data; //私有数据
atomic_long_t swap_readahead_info;
#ifndef CONFIG_MMU
struct vm_region *vm_region; /* NOMMU mapping region */
#endif
#ifdef CONFIG_NUMA
struct mempolicy *vm_policy; /* NUMA policy for the VMA */
#endif
struct vm_userfaultfd_ctx vm_userfaultfd_ctx;
} __randomize_layout;
在mm_struct存在vm_area_struct,且有begin和end。
vm_area_struct 的主要作用包括:
- 管理进程地址空间中的各个连续内存区域,明确每个区域的起始(begin)和结束(end)地址,划定区域边界。
- 记录对应内存区域的属性(如可读、可写、可执行)、类型(如堆、栈、代码段、数据段、共享库等)及相关映射信息。
- 为内核提供进程地址空间的结构化视图,便于内核进行内存分配、回收、权限检查、页面映射等管理操作。
为什么要有虚拟地址空间?
简单概括:
1.将地址从无序变有序。
2.地址转换的过程中,也可以对地址和操作进行合法性判定,进而保护物理内存!
3.让进程管理和内存管理,进行一定程度的解耦合。
结束语
虚拟地址空间的设计,是操作系统对 “复杂问题简单化” 的经典实践:通过引入 “虚拟地址” 这一抽象概念,屏蔽了物理内存的硬件细节,让进程无需关心实际内存布局;借助 “虚拟地址空间” 的结构化管理,实现了多进程的内存隔离与高效共享。而这一切的最终目的,是让有限的物理资源能支撑起无限的程序运行需求。
从 “为什么需要虚拟地址空间” 的本质追问,到 “虚拟地址如何映射物理内存” 的技术细节,我们看到的不仅是一套内存管理机制,更是操作系统 “以软件定义硬件逻辑” 的设计哲学。理解虚拟地址空间,不仅能帮助我们更深刻地解读程序运行的异常(如内存泄漏、段错误),更能让我们站在系统设计者的视角,思考 “抽象” 与 “效率” 在计算机科学中的永恒平衡。
虚拟地址空间的故事远未结束 —— 随着 64 位系统的普及和内存需求的增长,其管理机制仍在不断优化,但核心思想始终未变:用逻辑抽象解决物理限制,让技术的复杂性服务于用户的简单性。希望本文能为你打开一扇理解操作系统底层逻辑的窗口,让每一次代码编写都多一份对 “内存” 的清晰认知。