当前位置：首页 > news >正文

Linux_16进程地址空间

news 2025/11/3 21:22:19

CPU内的寄存器只有一套，但是CPU内寄存器的数据可能会有多份！

一、程序地址空间

下面这个图对应的是内存吗？（实际上是虚拟的进程地址空间）

32位机器内存最大为多少？

32位操作系统的地址总线为32位，意味着CPU可以生成的最大地址数量为 232232 个。每个地址对应内存中的一个字节（Byte）（而非单个bit），因此总寻址空间为：
232 Byte=4 GB232 Byte=4 GB

32位机器的内存最大为4G!

内存的最小单位是字节！

接下来我们使用代码来验证下上面的地址空间的顺序：

其中，堆和栈上创建的变量具有两个特点：

堆区创建的变量地址依次向上增长；
栈区创建的变量地址依次向下增长；

其中还有一个特点：被static修饰的局部变量，其地址转移到全局区，即编译的时候已经被编译到全局数据区！；

我们将上面的地址称为线性地址 | 虚拟地址！

但我们在子进程对全局变量进行修改：

修改前：

子进程会将父进程的进程地址空间也拷贝过来！（每一个进程都有自己独立的进程地址空间！）

进程地址空间会将对应的父进程的数据拷贝过来！

子进程也会有自己独立的页表结构！（但是此时虚拟地址和物理地址与父进程一样！ --- 指向的物理地址的数据是一样的！）

修改后：

当我们在子进程尝试对该全局变量进行修改的时候：例如地址为(0x40405c)，此时系统会检测到我们要往这个地址写入内容，当操作系统访问到该地址的数据的时候，会发现该地址的数据是和父进程共享的！此时操作系统会在物理内存中重新开辟一块空间，在页表中将虚拟地址映射的物理地址改为新的！（上述操作经过了写时拷贝 --- 由操作系统完成！）

重新开辟空间的时候，在这个过程中，左侧的虚拟地址是0感知的！不会关心，不会影响它！

当我们fork返回的时候，本质是向pid这个变量的值进行写入的过程，我们fork之后存在两个进程，这两个进程都有一个id变量！此时早已发生写时拷贝！因此，父子进程通过查询不同的页表，在真实的物理地址中获取不一样的值！

什么是进程地址空间？

上述情况(页表映射，访问物理内存等)一定发生在该进程被执行的情况！

一般来说，CPU会根据总线来访问内存；

在32位机器上，有32位地址和数据总线！

CPU与内存连接起来的线称为系统总线；
内存和外设连接起来的线称为IO总线；

内存内也有一个地址寄存器；

根据地址总线的高低电平，然后在内存里面的地址寄存器寻址，从而找到对应的内存的地址；

计算机内数据的拷贝，本质上一个设备向另一个设备充放电的过程！（硬件角度）

对于一个进程，操作系统除了需要创建PCB，还要创建对应的进程地址空间的结构体！

接下来，我们给出进程地址空间的相关概念(非官方)：

所谓地址空间，本质是一个描述进程可视范围的大小，地址空间区域一定要存在各种划分区域，对线性地址进行start和end即可！
地址空间本质是内核的一个数据结构对象，类似PCB一样，地址空间也要被操作系统所管理，即：先描述，再组织！

PCB结构体对象里面包含了一个struct mm_struct对象的指针！

每个进程都认为自己具有4GB的代码空间！

为什么需要有进程地址空间？

为了让进程以统一的视角来看待内存！
增加进程虚拟地址空间可以让我们访问内存的时候，增加一个转换的过程，在这个转化的过程中，可以对我们的寻址请求进行审查，所以一旦异常访问，直接拦截，该请求不会到达物理内存，从而实现保护物理内存！
因为地址空间和页表的存在，将进程管理模块和内存管理模块进行解耦合！

地址空间存在的必要性（deepseek）

保护物理内存的安全性
若直接使用物理地址，进程可能因代码错误（如野指针）或其他恶意操作篡改其他进程或内核数据，破坏系统稳定性。虚拟地址空间通过 页表权限检查 和 地址映射隔离，确保每个进程只能访问其合法范围内的物理内存。例如，当进程尝试修改只读的代码段或访问未分配的地址时，页表会触发权限异常，由操作系统拦截非法操作。
实现进程间内存隔离
每个进程拥有独立的虚拟地址空间，使得它们认为自身独占整个内存资源（如32位系统下每个进程的虚拟地址空间为4GB）。即使不同进程的虚拟地址相同（如父子进程通过fork创建后共享代码段），通过页表映射到不同的物理地址，实现数据隔离。这种机制避免了进程间的数据污染。
解耦进程管理与内存管理
虚拟地址空间将进程对内存的访问分为两个模块：
- 进程管理模块：仅需处理虚拟地址的分配和权限设置。
- 内存管理模块：动态分配物理内存，并通过页表建立映射。
  这种解耦降低了系统复杂性，例如支持内存的动态加载（如malloc申请的内存仅在首次访问时分配物理页）和随机化分布技术（ASLR，防止恶意攻击）。

二、页表

在CPU内部包含了一个名叫cr3的寄存器（x86系统下），该寄存器存储了当前运行的进程的页表地址！（该内容实际上属于硬件上下文，因此当该进程调度完之后会被带走！）

物理内存没有只读只写的概念，只要想写入可以直接写入！

页表除了映射，还有一个权限管理！（一般为可读或可写）

代码是只读的，字符常量区是只读的，为什么？！

这是因为页表里面对应的虚拟地址和物理地址的映射，现实的状况是只读的！

进程是可以被挂起的，那么我们怎么直到该进程是已经被挂起了（）还是被阻塞了？（Linxu系统的进程状态没有挂起状态）

共识：操作系统可以对大文件实现分批加载(例如一个大型游戏几十个G，但是我们的内存通常只有16G左右)

页表内还存在一个标识位：对应的代码和数据是否加载到内存？

如果此时通过查询页表发现，对应的数据和代码还没有加载到内存当中，此时会触发缺页中断，操作系统会将其加载到内存当中！

惰性加载（Lazy Loading）是一种内存管理机制，其核心思想是延迟物理内存的分配，直到程序真正访问该内存时才触发实际的资源分配。

进程在被创建的时候，是先创建对应的PCB模块，还是先加载对应的可执行程序和代码？

先创建内核模块！（当真正访问的时候才在对应的内存中加载）

因此现在我们再次给出一个进程的定义：进程 = 内核数据结构(tast_struct && mm_struct && 页表)！

页表存放在哪里？（deepseek）

在 Linux 内核中，页表结构并不直接存放在 task_struct 结构体中，而是通过 task_struct 中的一个关键字段 mm_struct 间接关联和管理。以下是具体分析：

1. `task_struct` 与内存管理的关联

task_struct 是 Linux 进程的核心数据结构，用于描述进程的所有信息。其中，mm_struct 类型的指针 mm 是进程内存管理的核心字段，它指向一个独立的 mm_struct 结构体，该结构体负责管理进程的虚拟地址空间和页表。

// task_struct 中的关键字段（摘自搜索结果）
struct task_struct {
    struct mm_struct *mm;  // 指向进程内存描述符
    // ... 其他字段
};

2. 页表结构的具体存储位置

页表结构（如页全局目录 PGD）实际存放在 mm_struct 中，而非 task_struct 中。具体来说：

mm_struct 包含一个 pgd_t *pgd 字段，指向页全局目录（Page Global Directory），这是页表的顶级结构。
每个进程的 mm_struct 是唯一的，负责管理进程的虚拟地址空间映射、页表项、内存区域（VMA）等。

// mm_struct 中的页表相关字段（摘自搜索结果）
struct mm_struct {
    pgd_t *pgd;            // 指向页全局目录（PGD）
    struct vm_area_struct *mmap; // 虚拟内存区域链表
    // ... 其他字段（如 total_vm、data_vm 等统计信息）
};