当前位置：首页 > news >正文

虚拟地址空间：从概念到内存管理的底层逻辑

news 2025/7/29 6:28:44

前言

当我们在代码中操作变量、申请内存时，是否想过一个问题：程序所 “看到” 的内存地址，真的是物理硬件中的实际位置吗？答案是否定的。这一切的背后，是操作系统为每个进程构建的一套精妙抽象 —— 虚拟地址空间。

本文将沿着 “概念引入→核心定义→管理机制→存在价值” 的脉络，系统解析虚拟地址空间的底层逻辑：从 “为什么需要虚拟地址” 这一根本问题出发，逐步揭开 “虚拟地址” 与 “虚拟地址空间” 的本质区别，以及操作系统如何通过虚拟内存管理技术，让进程在看似 “独占内存” 的错觉下，安全、高效地共享物理内存资源。无论你是想理解 “多进程为何能安全共存于内存”，还是想搞懂 “程序崩溃时的地址报错究竟指向哪里”，虚拟地址空间都是绕不开的核心知识点。它不仅是操作系统内存管理的基石，更是连接程序逻辑与硬件资源的桥梁。

程序地址空间

引入新概念

虚拟地址

虚拟地址空间（程序 / 进程地址空间）

虚拟内存管理

为什么要有虚拟地址空间？

程序地址空间

在学习C/C++，我们学过临时变量，全局变量，栈，堆等结构，它们的分布是什么呢？

下面的代码来看看。

内存地址演示

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>int g_unval;
int g_val = 100;int main(int argc, char *argv[], char *env[])
{const char *str = "helloworld";printf("code addr: %p\n", main);printf("init global addr: %p\n", &g_val);printf("uninit global addr: %p\n", &g_unval);static int test = 10;char *heap_mem = (char*)malloc(10);char *heap_mem1 = (char*)malloc(10);char *heap_mem2 = (char*)malloc(10);char *heap_mem3 = (char*)malloc(10);printf("heap addr: %p\n", heap_mem);printf("heap addr: %p\n", heap_mem1);printf("heap addr: %p\n", heap_mem2);printf("heap addr: %p\n", heap_mem3);printf("test static addr: %p\n", &test);printf("stack addr: %p\n", &heap_mem);printf("stack addr: %p\n", &heap_mem1);printf("stack addr: %p\n", &heap_mem2);printf("stack addr: %p\n", &heap_mem3);printf("read only string addr: %p\n", str);for(int i = 0; i < argc; i++){printf("argv[%d]: %p\n", i, argv[i]);}for(int i = 0; env[i]; i++){printf("env[%d]: %p\n", i, env[i]);}return 0;
}

程序地址空间：是内存吗？？？不是内存！！！

程序地址空间也叫进程地址空间(虚拟地址空间)，它是一个系统的概念，不是语言层的概念！

证明地址空间不是物理地址

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>int gval=100;int main(){pid_t id=fork();if(id<0){perror("fork");return 1;}else if(id==0){while(1){printf("子：pid:%d,ppid:%d,gval:%d,%p\n",getpid(),getppid(),gval,&gval);gval++;sleep(1);}}else{while(1){printf("父：pid:%d,ppid:%d,gval:%d,%p\n",getpid(),getppid(),gval,&gval);                                                                                                                             sleep(1);}}return 0;
}

变量内容不一样,所以父子进程输出的变量绝对不是同一个变量

但地址值是一样的，说明，该地址绝对不是物理地址！

在Linux地址下，这种地址叫做虚拟地址

我们在用C/C++语言所看到的地址，全部都是虚拟地址！物理地址，用户一概看不到，由OS统一管理

OS必须负责将虚拟地址转化成物理地址。

引入新概念

一个进程，一个虚拟地址空间，一个进程需要一个task_struct来描述，每个task_struct对应一个虚拟地址空间。虚拟地址空间的宽度是一个字节。

32位机器=》2^32个地址*1字节=4GB

64位机器=》2^64个地址*1字节

一个进程，一套页表，页表是用来做物理地址和虚拟地址映射的。

最初父子进程指向一样的物理内存，因为虚拟地址是一样的，通过页表映射物理地址。子进程继承父进程。

子进程对变量进行修改？进程具有独立性，操作系统重新分配空间给子进程，将地址重新填充到页表，映射关系进行修改。也就是写实拷贝。

上面的图就足够以说明问题，同一个变量，地址相同，其实是虚拟地址相同，内容不同其实是被映

射到了不同的物理地址！

虚拟地址

虚拟地址是操作系统为进程分配的 “逻辑地址编号”，它不是物理内存的实际硬件地址，而是进程 “看到” 的内存地址。

例如，C 语言中用&取到的变量地址，就是虚拟地址，它只是一个数字（如0x7f8a3b4c5d6e），不直接对应物理内存的硬件位置。
进程对内存的所有操作（读、写、执行），都是通过虚拟地址进行的，无法直接访问物理地址。

虚拟地址空间（程序 / 进程地址空间）

虚拟地址空间是操作系统为每个进程划分的 “虚拟内存范围”，是一个连续的地址区间（比如 32 位系统通常是 0~4GB），包含了进程运行所需的所有内存区域（如代码段、数据段、堆、栈等）。

它是进程的 “内存世界观”：每个进程都认为自己独占这一空间，且布局固定（如代码段在低地址，栈在高地址）。
本质是操作系统的抽象：通过页表和 MMU（内存管理单元），将虚拟地址空间中的地址映射到实际的物理内存地址，实现 “虚拟地址→物理地址” 的转换。

虚拟地址空间的本质确实是内核维护的一套数据结构（可以理解为一个复杂的 “结构体对象”），用于管理进程对虚拟地址的使用规则和映射关系。

虚拟内存管理

描述linux下进程的地址空间的所有的信息的结构体是 mm_struct （内存描述符）。每个进程只有一个mm_struct结构，在每个进程的task_struct结构中，有一个指向该进程的结构。

可以说，mm_struct结构是对整个用户空间的描述。每一个进程都会有自己独立的mm_struct，这样每一个进程都会有自己独立的地址空间才能互不干扰。先来看看由task_struct到mm_struct，进程的地址空间的分布情况：

在虚拟地址空间中申请指定大小的空间（调整区域划分）加载程序，申请物理空间，然后填充页表构建映射关系！！！

物理地址转化成虚拟地址，提供给上层用户使用。

mm_struct是个对象，需要开辟空间，需要初始化，加载的时候，进行初始化。

地址空间的区域划分只需要确认区域的开始和结束。知道并划分起始终止地址即可。

struct mm_struct
{ /*...*/ 
struct vm_area_struct *mmap; /* 指向虚拟区间(VMA)链表 */
struct rb_root mm_rb; /* red_black树 */
unsigned long task_size; /*具有该结构体的进程的虚拟地址空间的⼤⼩*/
/*...*/
8// 代码段、数据段、堆栈段、参数段及环境段的起始和结束地址。
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;
/*...*/}

那既然每一个进程都会有自己独立的mm_struct，操作系统肯定是要将这么多进程的mm_struct组织起来的！虚拟空间的组织方式有两种：

1. 当虚拟区较少时采取单链表，由mmap指针指向这个链表；

2. 当虚拟区间多时采取红黑树进行管理，由mm_rb指向这棵树。

linux内核使用vm_area_struct 结构来表示一个独立的虚拟内存区域(VMA)，由于每个不同质的虚拟内存区域功能和内部机制都不同，因此一个进程使用多个vm_area_struct结构来分别表示不同类型的虚拟内存区域。上面提到的两种组织方式使用的就是vm_area_struct结构来连接各个VMA，方便进程快速访问。

struct vm_area_struct {
unsigned long vm_start; //虚存区起始
unsigned long vm_end; //虚存区结束
struct vm_area_struct *vm_next, *vm_prev; //前后指针
struct rb_node vm_rb; //红⿊树中的位置
unsigned long rb_subtree_gap;
struct mm_struct *vm_mm; //所属的 mm_struct
pgprot_t vm_page_prot;
unsigned long vm_flags; //标志位
struct {
struct rb_node rb;
unsigned long rb_subtree_last;
} shared;
struct list_head anon_vma_chain;
struct anon_vma *anon_vma;
const struct vm_operations_struct *vm_ops; //vma对应的实际操作
unsigned long vm_pgoff; //⽂件映射偏移量
struct file * vm_file; //映射的⽂件
void * vm_private_data; //私有数据
atomic_long_t swap_readahead_info;
#ifndef CONFIG_MMU
struct vm_region *vm_region; /* NOMMU mapping region */
#endif
#ifdef CONFIG_NUMA
struct mempolicy *vm_policy; /* NUMA policy for the VMA */
#endif
struct vm_userfaultfd_ctx vm_userfaultfd_ctx;
} __randomize_layout;

在mm_struct存在vm_area_struct,且有begin和end。

vm_area_struct 的主要作用包括：

- 管理进程地址空间中的各个连续内存区域，明确每个区域的起始（begin）和结束（end）地址，划定区域边界。

- 记录对应内存区域的属性（如可读、可写、可执行）、类型（如堆、栈、代码段、数据段、共享库等）及相关映射信息。

- 为内核提供进程地址空间的结构化视图，便于内核进行内存分配、回收、权限检查、页面映射等管理操作。

为什么要有虚拟地址空间？

这个问题其实可以转化为：如果程序直接可以操作物理内存会造成什么问题？

在早期的计算机中，要运行一个程序，会把这些程序全都装入内存，程序都是直接运行在内存上的，也就是说程序中访问的内存地址都是实际的物理内存地址。当计算机同时运行多个程序时，必须保证这些程序用到的内存总量要⼩于计算机实际物理内存的大⼩。

那当程序同时运行多个程序时，操作系统是如何为这些程序分配内存的呢？例如某台计算机总的内存大小是128M，现在同时运行两个程序A和B，A需占用内存10M，B需占用内存110。计算机在给程序分配内存时会采取这样的方法：先将内存中的前10M分配给程序A，接着再从内存中剩余的118M中划分出110M分配给程序B。

这种分配方法可以保证程序A和程序B都能运行，但是这种简单的内存分配策略问题很多。

安全风险

每个进程都可以访问任意的内存空间，这也就意味着任意一个进程都能够去读写系统相关内

存区域，如果是一个木马病毒，那么他就能随意的修改内存空间，让设备直接瘫痪。

地址不确定

众所周知，编译完成后的程序是存放在硬盘上的，当运行的时候，需要将程序搬到内存当中

去运行，如果直接使用物理地址的话，我们无法确定内存现在使用到哪里了，也就是说拷贝

的实际内存地址每一次运行都是不确定的，比如：第一次执行a.out时候，内存当中一个进程

都没有运行，所以搬移到内存地址是0x00000000，但是第二次的时候，内存已经有10个进程

在运行了，那执行a.out的时候，内存地址就不一定了

效率低下

如果直接使用物理内存的话，一个进程就是作为一个整体（内存块）操作的，如果出现物理

内存不够用的时候，我们一般的办法是将不常用的进程拷贝到磁盘的交换分区中，好腾出内

存，但是如果是物理地址的话，就需要将整个进程一起拷走，这样，在内存和磁盘之间拷贝

时间太长，效率较低。

存在这么多问题，有了虚拟地址空间和分⻚机制就能解决了吗？当然！

地址空间和页表是OS创建并维护的！是不是也就意味着，凡是想使用地址空间和页表进⾏映射，

也一定要在OS的监管之下来进行访问！！也顺便，包括各个进程以及内核的相关有效数据! 保护了物理内存中的所有的合法数据

因为有地址空间的存在和页表的映射的存在，我们的物理内存中可以对未来的数据进行任意位置的加载！物理内存的分配和进程的管理就可以做到没有关系。 进程管理模块和内存管理模块就完

成了解耦合◦

因为有地址空间的存在，所以我们在C、C++语言上new, malloc空间的时候，其实是在地址

空间上申请的，物理内存可以甚至一个字节都不给你。而当你真正进行对物理地址空间访问

的时候，才执行内存的相关管理算法，帮你申请内存，构建页表映射关系（延迟分配），这

是由操作系统自动完成，用户包括进程完全0感知！！

因为页表的映射的存在，程序在物理内存中理论上就可以任意位置加载。它可以将地址空间上的

虚拟地址和物理地址进行映射，在进程视角所有的内存分布都可以是有序的。

简单概括：

1.将地址从无序变有序。

2.地址转换的过程中，也可以对地址和操作进行合法性判定，进而保护物理内存！

3.让进程管理和内存管理，进行一定程度的解耦合。

结束语

虚拟地址空间的设计，是操作系统对 “复杂问题简单化” 的经典实践：通过引入 “虚拟地址” 这一抽象概念，屏蔽了物理内存的硬件细节，让进程无需关心实际内存布局；借助 “虚拟地址空间” 的结构化管理，实现了多进程的内存隔离与高效共享。而这一切的最终目的，是让有限的物理资源能支撑起无限的程序运行需求。

从 “为什么需要虚拟地址空间” 的本质追问，到 “虚拟地址如何映射物理内存” 的技术细节，我们看到的不仅是一套内存管理机制，更是操作系统 “以软件定义硬件逻辑” 的设计哲学。理解虚拟地址空间，不仅能帮助我们更深刻地解读程序运行的异常（如内存泄漏、段错误），更能让我们站在系统设计者的视角，思考 “抽象” 与 “效率” 在计算机科学中的永恒平衡。

虚拟地址空间的故事远未结束 —— 随着 64 位系统的普及和内存需求的增长，其管理机制仍在不断优化，但核心思想始终未变：用逻辑抽象解决物理限制，让技术的复杂性服务于用户的简单性。希望本文能为你打开一扇理解操作系统底层逻辑的窗口，让每一次代码编写都多一份对 “内存” 的清晰认知。

查看全文

http://www.dtcms.com/a/302406.html