操作系统面经(一)
部分参考来自小林coding
线程、进程、协程
- 进程是操作系统分配资源(内存、文件等)的基本单位,每个进程独立运行,互相隔离,稳定性高但开销大;
- 线程是CPU调度的基本单位,属于同一进程的多个线程共享进程资源,切换比进程轻量,但共享内存可能导致数据竞争;
- 协程是用户态实现的“微线程”,由程序员手动控制切换,单线程内可并发成千上万个协程,适合I/O密集型任务,但无法利用多核。
堆和栈
-
栈:由编译器自动管理(分配/释放),遵循**后进先出(LIFO)**原则。函数调用时压栈(局部变量、参数、返回地址),函数返回时弹栈。无需手动干预,效率极高。内存分配速度极快,仅需移动栈指针(CPU直接支持)。存储局部变量、函数参数、返回地址等,数据大小固定(编译期确定)。无碎片问题(严格按LIFO顺序释放)。空间较小(默认MB级,如Linux约8MB),超出会引发栈溢出(如无限递归)。直接通过栈指针访问,CPU缓存命中率高,速度快。
-
堆:由程序员手动管理(如C/C++的malloc/free、C++的new/delete,或依赖垃圾回收机制如Java/Python)。动态分配内存,生命周期由代码控制,灵活性高但易出错(内存泄漏、野指针)。内存分配速度较慢,需动态查找可用内存块,可能触发垃圾回收(GC)。存储动态分配的对象(如new创建的对象、全局复杂数据结构),大小可变。频繁分配/释放可能产生碎片,需算法优化(如内存池)。空间较大(受限于系统可用内存),适合存储大型数据。通过指针间接访问,可能引发缓存未命中,速度较慢。
上下文包括什么
- 进程、线程上下文
- 寄存器值
- 内存管理信息
- 其他硬件状态
- 函数调用上下文
- 返回地址
- 参数和局部变量
- 栈帧信息
- 中断上下文
- 关键寄存器
- 错误码
- 内核栈指针
- 协程上下文
- 寄存器组
- 栈指针
- 自定义数据
进程的内存空间包括什么
- 代码段
- 程序的可执行指令(机器码),通常是只读的(防止意外修改)。
- 数据段
- (1) 初始化数据段(.data)
存储内容:全局变量 和 静态变量(已初始化的)。
程序启动时加载到内存,生命周期与进程相同。 - (2) 未初始化数据段(.bss)
存储内容:未初始化的全局变量和静态变量(默认置零)。
不占用磁盘空间(仅记录大小),运行时分配并清零。
- (1) 初始化数据段(.data)
- 堆
- 动态分配的内存(如 malloc()、new、calloc())。
- 栈
- 局部变量(非 static)。函数调用信息(返回地址、参数、栈帧指针 EBP/RBP)。
- 内存映射段
- 动态链接库(DLL / .so)(如 libc.so、kernel32.dll)。文件映射(如 mmap() 映射的文件或匿名内存)。某些运行时数据结构(如 pthread 线程栈)。
- 内核空间
- 操作系统内核代码、数据结构(如进程控制块 PCB)。设备驱动、中断处理程序等。
内存的分段和分表
- 内存分段(Segmentation)
- 分段 将程序的内存空间划分为若干个逻辑段(如代码段、数据段、堆段、栈段等),每个段有独立的基址(Base)和长度(Limit)。
- 段寄存器(如 CS、DS、SS)用于存储当前段的基址。
- 地址转换:逻辑地址 = 段基址(Base) + 偏移量(Offset);操作系统检查 偏移量 ≤ 段长度(Limit),防止越界访问。
- 内存分页(Paging)
- 分页 将物理内存和虚拟内存划分为固定大小的页(Page)(通常 4KB)。
- 页表(Page Table) 记录虚拟页到物理页的映射关系。
- 地址转换:逻辑地址 = 页号(Page Number) + 页内偏移(Offset);MMU(内存管理单元)通过页表查找物理页框(Page Frame)。
PCB是什么
PCB(Process Control Block) 是操作系统管理进程的核心数据结构,每个进程对应一个独立的PCB,用于保存进程的所有关键信息。它相当于进程的“身份证”,操作系统通过PCB来调度、控制和管理进程。
PCB 的作用:唯一标识进程、保存进程状态、实现进程切换、资源管理。
PCB 的主要内容:
- (1) 进程标识信息
- 进程ID(PID):唯一标识进程的数字(如Linux的ps -ef显示的PID)。
- 父进程ID(PPID):创建该进程的父进程ID。
- 用户ID(UID):进程所属的用户(用于权限控制)。
- (2) 进程状态信息
- 进程状态:
- 运行(Running):正在CPU上执行。
- 就绪(Ready):已准备好,等待CPU调度。
- 阻塞(Blocked):因等待I/O、信号量等事件而暂停。
- 创建(New) / 终止(Terminated):进程刚创建或已结束。
- 优先级:调度优先级(如实时进程优先级更高)。
- 进程状态:
- (3) CPU 上下文信息
- 寄存器状态:
- 程序计数器(PC/EIP/RIP):下一条要执行的指令地址。
- 栈指针(ESP/RSP)、基址指针(EBP/RBP)。
- 通用寄存器(EAX/RAX, EBX/RBX等)。
- 浮点/SIMD寄存器(如XMM0-XMM15)。
- 寄存器状态:
- (4) 内存管理信息
- 页表基址(CR3寄存器):进程的虚拟内存映射。
- 内存分配情况:
- 代码段、数据段、堆、栈的地址范围。
- 内存限制(如ulimit -a显示的栈大小)。
- (5) 文件与I/O信息
- 打开的文件描述符表:
- 标准输入/输出/错误(fd 0, 1, 2)。
- 其他打开的文件、套接字、管道等。
- 当前工作目录(CWD)。
- 打开的文件描述符表:
- (6) 其他资源信息
- 信号处理表:进程对各类信号(如SIGKILL、SIGTERM)的处理方式。
- 进程间通信(IPC)信息:
- 消息队列、共享内存、信号量等。
- 统计信息:
- CPU占用时间、创建时间、最后运行时间等。
进程间的通信方式
- 管道(父子进程间通信)
- 信号(异步事件通知)
- 信号量(同步进程)
- 共享内存(高频大数据交换)
- 消息队列(结构化消息传递)
- 套接字(跨网络)
线程间的通信方式
- 共享内存
- 互斥锁/读写锁+条件变量(简单共享变量)
- 信号量(限制并发树)
- 屏障(多线程分阶段同步)
- 消息队列(复杂数据传递)
信号和信号量的区别
-
信号(Signal)
- 信号是一种异步事件通知机制,用于通知进程某个事件已经发生。
- 信号由内核、其他进程或进程自身发送(例如 kill() 系统调用)。
- 内核为每个进程维护一个信号处理表,记录进程对每个信号的处理方式。
-
信号量(Semaphore)
- 信号量是一种进程/线程同步机制,用于协调多个进程或线程对共享资源的访问,防止竞争条件。
- 信号量需要进程主动调用 P() (wait)和 V() signal)来增减计数器。
- 信号量可以是内核级(如 System V 信号量)或用户级(如 POSIX 信号量)。
死锁是什么
死锁的必要条件
-
互斥条件(Mutual Exclusion)
资源一次只能被一个线程占用(如锁、文件句柄等)。 -
占有并等待(Hold and Wait)
线程持有至少一个资源,同时等待获取其他被占用的资源。 -
非抢占条件(No Preemption)
线程已获得的资源不能被强制剥夺,只能由线程主动释放。 -
循环等待(Circular Wait)
存在一个线程的循环等待链,每个线程都在等待下一个线程占用的资源。
死锁的解决方案
- 预防死锁(破坏必要条件)
- 破坏互斥条件:使用无锁数据结构(如原子操作),但某些资源(如打印机)必须互斥。
- 破坏占有并等待:要求线程一次性申请所有所需资源(如 pthread_mutex_trylock 组合检查)。
- 破坏非抢占条件:允许强制剥夺资源(如超时机制:pthread_mutex_timedlock)。
- 破坏循环等待:按固定顺序申请锁(如所有线程必须先申请 lockA 再申请 lockB)。
- 避免死锁(动态检查)
- 银行家算法:系统动态判断分配资源是否会导致死锁,仅在安全时分配。
- 锁超时机制:使用 pthread_mutex_trylock 或 pthread_mutex_timedlock 避免无限等待。
悲观锁、乐观锁、互斥锁、自旋锁
- 悲观锁(Pessimistic Lock)
总是假设最坏情况,每次访问共享资源前都先加锁,防止其他线程修改。
- 保证强一致性,不会出现数据冲突。
- 可能引发 死锁(如多个线程互相等待锁)。
- 性能较低(频繁加锁/解锁开销大)。 - 乐观锁(Optimistic Lock)
假设冲突很少发生,不加锁直接操作,提交时检查是否冲突。
- 无锁并发,性能高(减少锁竞争)。ABA问题(需额外版本号解决)。
- 可能失败(需重试机制)。 - 互斥锁(Mutex Lock)
同一时间只允许一个线程进入临界区,其他线程阻塞等待。
- 简单易用,保证线程安全。
- 线程切换开销(阻塞时进入内核态)。 - 自旋锁(Spin Lock)
线程不阻塞,而是循环检查锁是否可用(忙等待)。
- 无上下文切换,响应快。
- CPU 空转(长时间等待会浪费资源)。
进程调度算法
先来先服务
最短作业优先
高响应比有线
时间片轮转
最高优先级
多级队列反馈
内存页面置换算法
最佳页面置换算法
先进先出置换算法
最近最久未使用的置换算法
时钟页面置换算法
最不常用算法
磁盘调度算法
先来先服务
最短寻道时间
扫描算法
循环扫描算法
LOOK和C-LOOK
缺页异常
缺页异常 是操作系统内存管理中的一种机制,当进程访问的 虚拟内存页 尚未加载到 物理内存(RAM) 时,由 MMU(内存管理单元) 触发CPU异常,操作系统接管处理该异常,并动态加载所需数据到内存。
- 硬缺页(Hard Page Fault) 访问的页不在物理内存,且未在磁盘交换区(如首次访问堆/栈) 从磁盘(文件或匿名页)加载到内存
- 软缺页(Soft Page Fault) 页在物理内存中,但未映射到当前进程的页表(如共享库被其他进程已加载) 直接建立页表映射,无需磁盘I/O
- 无效缺页(Invalid Page Fault) 访问的地址非法(如野指针、已释放内存) 终止进程(触发段错误 SIGSEGV)
当CPU访问虚拟地址时,硬件执行以下步骤:
- MMU查页表:检查虚拟地址对应的页表项(PTE)。
- 若PTE标记为 有效(Present=1),直接访问物理内存。
- 若PTE标记为 无效(Present=0),触发缺页异常。
- 操作系统介入:
- 检查访问是否合法(地址是否在进程的虚拟地址空间内)。
- 若合法,分配物理页帧,并从磁盘(文件或交换区)加载数据。
- 更新页表,标记为有效。
- 恢复执行:重新执行触发缺页的指令。
零拷贝
零拷贝 是一种优化技术,旨在 减少数据在内存中的冗余拷贝次数,从而降低CPU开销、提升I/O性能。传统的数据传输(如文件读写、网络通信)需要多次数据拷贝和上下文切换,而零拷贝通过操作系统和硬件的协作,避免不必要的拷贝操作。
传统I/O流程(非零拷贝)
以 读取文件并发送到网络 为例,传统方式涉及多次数据拷贝:
- 磁盘 → 内核缓冲区:DMA(直接内存访问)将磁盘数据拷贝到内核空间的 Page Cache。
- 内核缓冲区 → 用户缓冲区:CPU将数据从内核拷贝到用户空间(应用程序内存)。
- 用户缓冲区 → 内核Socket缓冲区:CPU将数据拷贝回内核的网络发送缓冲区。
- Socket缓冲区 → 网卡:DMA将数据从内核拷贝到网卡发送。
问题:
- 4次上下文切换(用户态↔内核态)。
- 4次数据拷贝(2次CPU拷贝 + 2次DMA拷贝)。
- CPU成为性能瓶颈(尤其是大文件或高并发场景)。
零拷贝的实现方式
(1)sendfile() 系统调用(Linux 2.4+)
- 原理:
- 文件数据直接从内核的 Page Cache 通过DMA拷贝到 网卡缓冲区,无需经过用户空间。
- 流程:
- 磁盘 → Page Cache(DMA拷贝)。
- Page Cache → 网卡缓冲区(DMA拷贝)。
- 优点:
- 2次上下文切换(调用sendfile()和返回)。
- 2次数据拷贝(均为DMA,无需CPU参与)。
- 限制:
- 仅适用于文件到Socket的传输,不能修改数据。
(2)mmap() + write()
- 原理:
- 将文件映射到用户空间的虚拟内存(mmap),直接操作内存地址,减少一次拷贝。
- 流程:
- 磁盘 → Page Cache(DMA拷贝)。
- Page Cache → 用户空间映射(内存映射,无物理拷贝)。
- 用户空间 → Socket缓冲区(CPU拷贝)。
- 优点:
- 允许对文件数据灵活处理(如修改)。
- 缺点:
- 仍需要1次CPU拷贝(比sendfile()多一次)。
- 小文件可能不划算(内存映射开销)。
(3)DMA Scatter/Gather
- 原理:
- 网卡支持 分散-聚集(Scatter-Gather) 功能,直接从多个内存区域(如Page Cache)收集数据并发送,无需连续缓冲区。
- 优势:
- 完全避免CPU拷贝(sendfile()的增强版)。
- 适合大文件或碎片化数据。
Kafka是通过sendfile()和Page Cache实现高吞吐日志持久化。
select、poll和epoll
- select通过将所有连接的socket放到一个文件描述符集合,调用时将其拷贝到内核里,然后通过轮询的方式检查是否有事件发生。检查到有事件产生后将Socket标为可读或可写,再把整个文件描述符集合拷贝回用户态。在用户态再通过遍历的方式找到可读或可写的socket进行处理。(使用固定长度的bitsMap,所有支持的文件描述符有限制)
- poll使用动态数组来查找socket,没有轮询个数限制
- epoll 在内核里使用红黑树来跟踪进程所有待检测的文件描述字。把需要监控的 socket 通过 epoll_ctl() 函数加入内核中的红黑树里;epoll 使用事件驱动的机制,内核里维护了一个链表来记录就绪事件。当某个 socket 有事件发生时,通过回调函数内核会将其加入到这个就绪事件列表中,当用户调用 epoll_wait() 函数时,只会返回有事件发生的文件描述符的个数
epoll支持水平触发和边沿触发:- 使用边缘触发模式时,当被监控的 Socket 描述符上有可读事件发生时,服务器端只会从 epoll_wait 中苏醒一次,即使进程没有调用 read 函数从内核读取数据,也依然只苏醒一次,因此我们程序要保证一次性将内核缓冲区的数据读取完;
- 使用水平触发模式时,当被监控的 Socket 上有可读事件发生时,务器端不断地从 epoll_wait 中苏醒,直到内核缓冲区数据被 read 函数读完才结束,目的是告诉我们有数据需要读取;