Linux_16进程地址空间
CPU内的寄存器只有一套,但是CPU内寄存器的数据可能会有多份!
一、程序地址空间
下面这个图对应的是内存吗?(实际上是虚拟的进程地址空间)
32位机器内存最大为多少?
32位操作系统的地址总线为32位,意味着CPU可以生成的最大地址数量为 232232 个。每个地址对应内存中的一个字节(Byte)(而非单个bit),因此总寻址空间为:
232 Byte=4 GB232 Byte=4 GB
32位机器的内存最大为4G!
内存的最小单位是字节!
接下来我们使用代码来验证下上面的地址空间的顺序:
其中,堆和栈上创建的变量具有两个特点:
- 堆区创建的变量地址依次向上增长;
- 栈区创建的变量地址依次向下增长;
其中还有一个特点:被static修饰的局部变量,其地址转移到全局区,即编译的时候已经被编译到全局数据区!;
我们将上面的地址称为线性地址 | 虚拟地址!
但我们在子进程对全局变量进行修改:
修改前:
子进程会将父进程的进程地址空间也拷贝过来!(每一个进程都有自己独立的进程地址空间!)
进程地址空间会将对应的父进程的数据拷贝过来!
子进程也会有自己独立的页表结构!(但是此时虚拟地址和物理地址与父进程一样! --- 指向的物理地址的数据是一样的!)
修改后:
当我们在子进程尝试对该全局变量进行修改的时候:例如地址为(0x40405c),此时系统会检测到我们要往这个地址写入内容,当操作系统访问到该地址的数据的时候,会发现该地址的数据是和父进程共享的!此时操作系统会在物理内存中重新开辟一块空间,在页表中将虚拟地址映射的物理地址改为新的!(上述操作经过了写时拷贝 --- 由操作系统完成!)
重新开辟空间的时候,在这个过程中,左侧的虚拟地址是0感知的!不会关心,不会影响它!
当我们fork返回的时候,本质是向pid这个变量的值进行写入的过程,我们fork之后存在两个进程,这两个进程都有一个id变量!此时早已发生写时拷贝!因此,父子进程通过查询不同的页表,在真实的物理地址中获取不一样的值!
什么是进程地址空间?
上述情况(页表映射,访问物理内存等)一定发生在该进程被执行的情况!
一般来说,CPU会根据总线来访问内存;
在32位机器上,有32位地址和数据总线!
- CPU与内存连接起来的线称为系统总线;
- 内存和外设连接起来的线称为IO总线;
内存内也有一个地址寄存器;
根据地址总线的高低电平,然后在内存里面的地址寄存器寻址,从而找到对应的内存的地址;
计算机内数据的拷贝,本质上一个设备向另一个设备充放电的过程!(硬件角度)
对于一个进程,操作系统除了需要创建PCB,还要创建对应的进程地址空间的结构体!
接下来,我们给出进程地址空间的相关概念(非官方):
- 所谓地址空间,本质是一个描述进程可视范围的大小,地址空间区域一定要存在各种划分区域,对线性地址进行start和end即可!
- 地址空间本质是内核的一个数据结构对象,类似PCB一样,地址空间也要被操作系统所管理,即:先描述,再组织!
PCB结构体对象里面包含了一个struct mm_struct对象的指针!
每个进程都认为自己具有4GB的代码空间!
为什么需要有进程地址空间?
- 为了让进程以统一的视角来看待内存!
- 增加进程虚拟地址空间可以让我们访问内存的时候,增加一个转换的过程,在这个转化的过程中,可以对我们的寻址请求进行审查,所以一旦异常访问,直接拦截,该请求不会到达物理内存,从而实现保护物理内存!
- 因为地址空间和页表的存在,将进程管理模块和内存管理模块进行解耦合!
地址空间存在的必要性(deepseek)
-
保护物理内存的安全性
若直接使用物理地址,进程可能因代码错误(如野指针)或其他恶意操作篡改其他进程或内核数据,破坏系统稳定性。虚拟地址空间通过 页表权限检查 和 地址映射隔离,确保每个进程只能访问其合法范围内的物理内存。例如,当进程尝试修改只读的代码段或访问未分配的地址时,页表会触发权限异常,由操作系统拦截非法操作。 -
实现进程间内存隔离
每个进程拥有独立的虚拟地址空间,使得它们认为自身独占整个内存资源(如32位系统下每个进程的虚拟地址空间为4GB)。即使不同进程的虚拟地址相同(如父子进程通过fork
创建后共享代码段),通过页表映射到不同的物理地址,实现数据隔离。这种机制避免了进程间的数据污染。 -
解耦进程管理与内存管理
虚拟地址空间将进程对内存的访问分为两个模块:- 进程管理模块:仅需处理虚拟地址的分配和权限设置。
- 内存管理模块:动态分配物理内存,并通过页表建立映射。
这种解耦降低了系统复杂性,例如支持内存的动态加载(如malloc
申请的内存仅在首次访问时分配物理页)和随机化分布技术(ASLR,防止恶意攻击) 。
二、页表
在CPU内部包含了一个名叫cr3的寄存器(x86系统下), 该寄存器存储了当前运行的进程的页表地址!(该内容实际上属于硬件上下文,因此当该进程调度完之后会被带走!)
物理内存没有只读只写的概念,只要想写入可以直接写入!
页表除了映射,还有一个权限管理!(一般为可读或可写)
代码是只读的,字符常量区是只读的,为什么?!
这是因为页表里面对应的虚拟地址和物理地址的映射,现实的状况是只读的!
进程是可以被挂起的,那么我们怎么直到该进程是已经被挂起了()还是被阻塞了?(Linxu系统的进程状态没有挂起状态)
共识:操作系统可以对大文件实现分批加载(例如一个大型游戏几十个G,但是我们的内存通常只有16G左右)
页表内还存在一个标识位:对应的代码和数据是否加载到内存?
如果此时通过查询页表发现,对应的数据和代码还没有加载到内存当中,此时会触发缺页中断,操作系统会将其加载到内存当中!
惰性加载(Lazy Loading)是一种内存管理机制,其核心思想是延迟物理内存的分配,直到程序真正访问该内存时才触发实际的资源分配。
进程在被创建的时候,是先创建对应的PCB模块,还是先加载对应的可执行程序和代码?
先创建内核模块!(当真正访问的时候才在对应的内存中加载)
因此现在我们再次给出一个进程的定义:进程 = 内核数据结构(tast_struct && mm_struct && 页表)!
页表存放在哪里?(deepseek)
在 Linux 内核中,页表结构并不直接存放在 task_struct
结构体中,而是通过 task_struct
中的一个关键字段 mm_struct
间接关联和管理。以下是具体分析:
1. task_struct
与内存管理的关联
task_struct
是 Linux 进程的核心数据结构,用于描述进程的所有信息。其中,mm_struct
类型的指针 mm
是进程内存管理的核心字段,它指向一个独立的 mm_struct
结构体,该结构体负责管理进程的虚拟地址空间和页表。
// task_struct 中的关键字段(摘自搜索结果)
struct task_struct {
struct mm_struct *mm; // 指向进程内存描述符
// ... 其他字段
};
2. 页表结构的具体存储位置
页表结构(如页全局目录 PGD)实际存放在 mm_struct
中,而非 task_struct
中。具体来说:
mm_struct
包含一个pgd_t *pgd
字段,指向页全局目录(Page Global Directory),这是页表的顶级结构 。- 每个进程的
mm_struct
是唯一的,负责管理进程的虚拟地址空间映射、页表项、内存区域(VMA)等 。
// mm_struct 中的页表相关字段(摘自搜索结果)
struct mm_struct {
pgd_t *pgd; // 指向页全局目录(PGD)
struct vm_area_struct *mmap; // 虚拟内存区域链表
// ... 其他字段(如 total_vm、data_vm 等统计信息)
};
3. 内核如何通过 task_struct
访问页表
当进程调度到 CPU 运行时,内核会通过 task_struct->mm->pgd
获取当前进程的页表,并将 pgd
的值加载到 CPU 的 CR3 寄存器中,完成地址转换。这一过程由内存管理单元(MMU)硬件实现,且 MMU 操作的是物理地址,而非虚拟地址。