当前位置: 首页 > news >正文

操作系统面经(一)

部分参考来自小林coding

线程、进程、协程

  • 进程是操作系统分配资源(内存、文件等)的基本单位,每个进程独立运行,互相隔离,稳定性高但开销大;
  • 线程是CPU调度的基本单位,属于同一进程的多个线程共享进程资源,切换比进程轻量,但共享内存可能导致数据竞争;
  • 协程是用户态实现的“微线程”,由程序员手动控制切换,单线程内可并发成千上万个协程,适合I/O密集型任务,但无法利用多核。

堆和栈

  • 栈:由编译器自动管理(分配/释放),遵循**后进先出(LIFO)**原则。函数调用时压栈(局部变量、参数、返回地址),函数返回时弹栈。无需手动干预,效率极高。内存分配速度极快,仅需移动栈指针(CPU直接支持)。存储局部变量、函数参数、返回地址等,数据大小固定(编译期确定)。无碎片问题(严格按LIFO顺序释放)。空间较小(默认MB级,如Linux约8MB),超出会引发栈溢出(如无限递归)。直接通过栈指针访问,CPU缓存命中率高,速度快。

  • 堆:由程序员手动管理(如C/C++的malloc/free、C++的new/delete,或依赖垃圾回收机制如Java/Python)。动态分配内存,生命周期由代码控制,灵活性高但易出错(内存泄漏、野指针)。内存分配速度较慢,需动态查找可用内存块,可能触发垃圾回收(GC)。存储动态分配的对象(如new创建的对象、全局复杂数据结构),大小可变。频繁分配/释放可能产生碎片,需算法优化(如内存池)。空间较大(受限于系统可用内存),适合存储大型数据。通过指针间接访问,可能引发缓存未命中,速度较慢。

上下文包括什么

  • 进程、线程上下文
    • 寄存器值
    • 内存管理信息
    • 其他硬件状态
  • 函数调用上下文
    • 返回地址
    • 参数和局部变量
    • 栈帧信息
  • 中断上下文
    • 关键寄存器
    • 错误码
    • 内核栈指针
  • 协程上下文
    • 寄存器组
    • 栈指针
    • 自定义数据

进程的内存空间包括什么

  1. 代码段
    • 程序的可执行指令(机器码),通常是只读的(防止意外修改)。
  2. 数据段
    • (1) 初始化数据段(.data)
      存储内容:全局变量 和 静态变量(已初始化的)。
      程序启动时加载到内存,生命周期与进程相同。
    • (2) 未初始化数据段(.bss)
      存储内容:未初始化的全局变量和静态变量(默认置零)。
      不占用磁盘空间(仅记录大小),运行时分配并清零。
    • 动态分配的内存(如 malloc()、new、calloc())。
    • 局部变量(非 static)。函数调用信息(返回地址、参数、栈帧指针 EBP/RBP)。
  3. 内存映射段
    • 动态链接库(DLL / .so)(如 libc.so、kernel32.dll)。文件映射(如 mmap() 映射的文件或匿名内存)。某些运行时数据结构(如 pthread 线程栈)。
  4. 内核空间
    • 操作系统内核代码、数据结构(如进程控制块 PCB)。设备驱动、中断处理程序等。

内存的分段和分表

  1. 内存分段(Segmentation)
    • 分段 将程序的内存空间划分为若干个逻辑段(如代码段、数据段、堆段、栈段等),每个段有独立的基址(Base)和长度(Limit)。
    • 段寄存器(如 CS、DS、SS)用于存储当前段的基址。
    • 地址转换:逻辑地址 = 段基址(Base) + 偏移量(Offset);操作系统检查 偏移量 ≤ 段长度(Limit),防止越界访问。
  2. 内存分页(Paging)
    • 分页 将物理内存和虚拟内存划分为固定大小的页(Page)(通常 4KB)。
    • 页表(Page Table) 记录虚拟页到物理页的映射关系。
    • 地址转换:逻辑地址 = 页号(Page Number) + 页内偏移(Offset);MMU(内存管理单元)通过页表查找物理页框(Page Frame)。

PCB是什么

PCB(Process Control Block) 是操作系统管理进程的核心数据结构,每个进程对应一个独立的PCB,用于保存进程的所有关键信息。它相当于进程的“身份证”,操作系统通过PCB来调度、控制和管理进程。
PCB 的作用:唯一标识进程、保存进程状态、实现进程切换、资源管理。

PCB 的主要内容:

  • (1) 进程标识信息
    • 进程ID(PID):唯一标识进程的数字(如Linux的ps -ef显示的PID)。
    • 父进程ID(PPID):创建该进程的父进程ID。
    • 用户ID(UID):进程所属的用户(用于权限控制)。
  • (2) 进程状态信息
    • 进程状态:
      • 运行(Running):正在CPU上执行。
      • 就绪(Ready):已准备好,等待CPU调度。
      • 阻塞(Blocked):因等待I/O、信号量等事件而暂停。
      • 创建(New) / 终止(Terminated):进程刚创建或已结束。
    • 优先级:调度优先级(如实时进程优先级更高)。
  • (3) CPU 上下文信息
    • 寄存器状态:
      • 程序计数器(PC/EIP/RIP):下一条要执行的指令地址。
      • 栈指针(ESP/RSP)、基址指针(EBP/RBP)。
      • 通用寄存器(EAX/RAX, EBX/RBX等)。
      • 浮点/SIMD寄存器(如XMM0-XMM15)。
  • (4) 内存管理信息
    • 页表基址(CR3寄存器):进程的虚拟内存映射。
    • 内存分配情况:
      • 代码段、数据段、堆、栈的地址范围。
      • 内存限制(如ulimit -a显示的栈大小)。
  • (5) 文件与I/O信息
    • 打开的文件描述符表:
      • 标准输入/输出/错误(fd 0, 1, 2)。
      • 其他打开的文件、套接字、管道等。
    • 当前工作目录(CWD)。
  • (6) 其他资源信息
    • 信号处理表:进程对各类信号(如SIGKILL、SIGTERM)的处理方式。
    • 进程间通信(IPC)信息:
      • 消息队列、共享内存、信号量等。
    • 统计信息:
      • CPU占用时间、创建时间、最后运行时间等。

进程间的通信方式

  • 管道(父子进程间通信)
  • 信号(异步事件通知)
  • 信号量(同步进程)
  • 共享内存(高频大数据交换)
  • 消息队列(结构化消息传递)
  • 套接字(跨网络)

线程间的通信方式

  • 共享内存
  • 互斥锁/读写锁+条件变量(简单共享变量)
  • 信号量(限制并发树)
  • 屏障(多线程分阶段同步)
  • 消息队列(复杂数据传递)

信号和信号量的区别

  • 信号(Signal)

    • 信号是一种异步事件通知机制,用于通知进程某个事件已经发生。
    • 信号由内核、其他进程或进程自身发送(例如 kill() 系统调用)。
    • 内核为每个进程维护一个信号处理表,记录进程对每个信号的处理方式。
  • 信号量(Semaphore)

    • 信号量是一种进程/线程同步机制,用于协调多个进程或线程对共享资源的访问,防止竞争条件。
    • 信号量需要进程主动调用 P() (wait)和 V() signal)来增减计数器。
    • 信号量可以是内核级(如 System V 信号量)或用户级(如 POSIX 信号量)。

死锁是什么

死锁的必要条件
  1. 互斥条件(Mutual Exclusion)
    资源一次只能被一个线程占用(如锁、文件句柄等)。

  2. 占有并等待(Hold and Wait)
    线程持有至少一个资源,同时等待获取其他被占用的资源。

  3. 非抢占条件(No Preemption)
    线程已获得的资源不能被强制剥夺,只能由线程主动释放。

  4. 循环等待(Circular Wait)
    存在一个线程的循环等待链,每个线程都在等待下一个线程占用的资源。

死锁的解决方案
  1. 预防死锁(破坏必要条件)
    • 破坏互斥条件:使用无锁数据结构(如原子操作),但某些资源(如打印机)必须互斥。
    • 破坏占有并等待:要求线程一次性申请所有所需资源(如 pthread_mutex_trylock 组合检查)。
    • 破坏非抢占条件:允许强制剥夺资源(如超时机制:pthread_mutex_timedlock)。
    • 破坏循环等待:按固定顺序申请锁(如所有线程必须先申请 lockA 再申请 lockB)。
  2. 避免死锁(动态检查)
    • 银行家算法:系统动态判断分配资源是否会导致死锁,仅在安全时分配。
    • 锁超时机制:使用 pthread_mutex_trylock 或 pthread_mutex_timedlock 避免无限等待。

悲观锁、乐观锁、互斥锁、自旋锁

  1. 悲观锁(Pessimistic Lock)
    总是假设最坏情况,每次访问共享资源前都先加锁,防止其他线程修改。
    - 保证强一致性,不会出现数据冲突。
    - 可能引发 死锁(如多个线程互相等待锁)。
    - 性能较低(频繁加锁/解锁开销大)。
  2. 乐观锁(Optimistic Lock)
    假设冲突很少发生,不加锁直接操作,提交时检查是否冲突。
    - 无锁并发,性能高(减少锁竞争)。ABA问题(需额外版本号解决)。
    - 可能失败(需重试机制)。
  3. 互斥锁(Mutex Lock)
    同一时间只允许一个线程进入临界区,其他线程阻塞等待。
    - 简单易用,保证线程安全。
    - 线程切换开销(阻塞时进入内核态)。
  4. 自旋锁(Spin Lock)
    线程不阻塞,而是循环检查锁是否可用(忙等待)。
    - 无上下文切换,响应快。
    - CPU 空转(长时间等待会浪费资源)。

进程调度算法

先来先服务
最短作业优先
高响应比有线
时间片轮转
最高优先级
多级队列反馈

内存页面置换算法

最佳页面置换算法
先进先出置换算法
最近最久未使用的置换算法
时钟页面置换算法
最不常用算法

磁盘调度算法

先来先服务
最短寻道时间
扫描算法
循环扫描算法
LOOK和C-LOOK

缺页异常

缺页异常 是操作系统内存管理中的一种机制,当进程访问的 虚拟内存页 尚未加载到 物理内存(RAM) 时,由 MMU(内存管理单元) 触发CPU异常,操作系统接管处理该异常,并动态加载所需数据到内存。

  • 硬缺页(Hard Page Fault) 访问的页不在物理内存,且未在磁盘交换区(如首次访问堆/栈) 从磁盘(文件或匿名页)加载到内存
  • 软缺页(Soft Page Fault) 页在物理内存中,但未映射到当前进程的页表(如共享库被其他进程已加载) 直接建立页表映射,无需磁盘I/O
  • 无效缺页(Invalid Page Fault) 访问的地址非法(如野指针、已释放内存) 终止进程(触发段错误 SIGSEGV)

当CPU访问虚拟地址时,硬件执行以下步骤:

  1. MMU查页表:检查虚拟地址对应的页表项(PTE)。
    • 若PTE标记为 有效(Present=1),直接访问物理内存。
    • 若PTE标记为 无效(Present=0),触发缺页异常。
  2. 操作系统介入:
    • 检查访问是否合法(地址是否在进程的虚拟地址空间内)。
    • 若合法,分配物理页帧,并从磁盘(文件或交换区)加载数据。
    • 更新页表,标记为有效。
  3. 恢复执行:重新执行触发缺页的指令。

零拷贝

零拷贝 是一种优化技术,旨在 减少数据在内存中的冗余拷贝次数,从而降低CPU开销、提升I/O性能。传统的数据传输(如文件读写、网络通信)需要多次数据拷贝和上下文切换,而零拷贝通过操作系统和硬件的协作,避免不必要的拷贝操作。

传统I/O流程(非零拷贝)

以 读取文件并发送到网络 为例,传统方式涉及多次数据拷贝:

  1. 磁盘 → 内核缓冲区:DMA(直接内存访问)将磁盘数据拷贝到内核空间的 Page Cache。
  2. 内核缓冲区 → 用户缓冲区:CPU将数据从内核拷贝到用户空间(应用程序内存)。
  3. 用户缓冲区 → 内核Socket缓冲区:CPU将数据拷贝回内核的网络发送缓冲区。
  4. Socket缓冲区 → 网卡:DMA将数据从内核拷贝到网卡发送。

问题:

  • 4次上下文切换(用户态↔内核态)。
  • 4次数据拷贝(2次CPU拷贝 + 2次DMA拷贝)。
  • CPU成为性能瓶颈(尤其是大文件或高并发场景)。
零拷贝的实现方式

(1)sendfile() 系统调用(Linux 2.4+)

  • 原理:
    • 文件数据直接从内核的 Page Cache 通过DMA拷贝到 网卡缓冲区,无需经过用户空间。
  • 流程:
    • 磁盘 → Page Cache(DMA拷贝)。
    • Page Cache → 网卡缓冲区(DMA拷贝)。
  • 优点:
    • 2次上下文切换(调用sendfile()和返回)。
    • 2次数据拷贝(均为DMA,无需CPU参与)。
  • 限制:
    • 仅适用于文件到Socket的传输,不能修改数据。

(2)mmap() + write()

  • 原理:
    • 将文件映射到用户空间的虚拟内存(mmap),直接操作内存地址,减少一次拷贝。
  • 流程:
    • 磁盘 → Page Cache(DMA拷贝)。
    • Page Cache → 用户空间映射(内存映射,无物理拷贝)。
    • 用户空间 → Socket缓冲区(CPU拷贝)。
  • 优点:
    • 允许对文件数据灵活处理(如修改)。
  • 缺点:
    • 仍需要1次CPU拷贝(比sendfile()多一次)。
    • 小文件可能不划算(内存映射开销)。

(3)DMA Scatter/Gather

  • 原理:
    • 网卡支持 分散-聚集(Scatter-Gather) 功能,直接从多个内存区域(如Page Cache)收集数据并发送,无需连续缓冲区。
  • 优势:
    • 完全避免CPU拷贝(sendfile()的增强版)。
    • 适合大文件或碎片化数据。

Kafka是通过sendfile()和Page Cache实现高吞吐日志持久化。

select、poll和epoll

  • select通过将所有连接的socket放到一个文件描述符集合,调用时将其拷贝到内核里,然后通过轮询的方式检查是否有事件发生。检查到有事件产生后将Socket标为可读或可写,再把整个文件描述符集合拷贝回用户态。在用户态再通过遍历的方式找到可读或可写的socket进行处理。(使用固定长度的bitsMap,所有支持的文件描述符有限制)
  • poll使用动态数组来查找socket,没有轮询个数限制
  • epoll 在内核里使用红黑树来跟踪进程所有待检测的文件描述字。把需要监控的 socket 通过 epoll_ctl() 函数加入内核中的红黑树里;epoll 使用事件驱动的机制,内核里维护了一个链表来记录就绪事件。当某个 socket 有事件发生时,通过回调函数内核会将其加入到这个就绪事件列表中,当用户调用 epoll_wait() 函数时,只会返回有事件发生的文件描述符的个数
    epoll支持水平触发和边沿触发:
    • 使用边缘触发模式时,当被监控的 Socket 描述符上有可读事件发生时,服务器端只会从 epoll_wait 中苏醒一次,即使进程没有调用 read 函数从内核读取数据,也依然只苏醒一次,因此我们程序要保证一次性将内核缓冲区的数据读取完;
    • 使用水平触发模式时,当被监控的 Socket 上有可读事件发生时,务器端不断地从 epoll_wait 中苏醒,直到内核缓冲区数据被 read 函数读完才结束,目的是告诉我们有数据需要读取;
http://www.dtcms.com/a/111598.html

相关文章:

  • 2025年【陕西省安全员C证】报名考试及陕西省安全员C证找解析
  • Qt QTableView QAbstractTableModel实现复选框+代理实现单元格编辑
  • 进行性核上性麻痹:饮食调理为健康护航
  • SpringBoot项目报错: 缺少 Validation
  • 【NLP 55、投机采样加速推理】
  • 在线考试系统带万字文档java项目java课程设计java毕业设计springboot项目
  • 【matplotlib参数调整】
  • 2011-2019年各省地方财政国土资源气象等事务支出决策数数据
  • 如何理解缓存一致性?
  • Linux 安装 MySQL8数据库
  • LLM面试题六
  • Linux随机数
  • React: hook相当于函数吗?
  • 算法设计学习9
  • 【Groovy快速上手 ONLY ONE】Groovy与Java的核心差异
  • 常见的ETL工具分类整理
  • 嵌入式——Linux系统的使用以及编程练习
  • stm32+LTR-390UV使用教程含源码
  • 【算法竞赛】dfs+csp综合应用(蓝桥2023A9像素放置)
  • 深入理解时间复杂度与空间复杂度
  • DeepSeek能否用于对话系统(Chatbot)?技术解析与应用实例!
  • 《AI大模型应知应会100篇》第3篇:大模型的能力边界:它能做什么,不能做什么
  • 3.29-3 压力测试(不同用户)
  • 搭建工作流自动化工具n8n并配置deepseek大模型
  • day23学习Pandas库
  • python基础-10-组织文件
  • 6. RabbitMQ 死信队列的详细操作编写
  • linux3 mkdir rmdir rm cp touch ls -d /*/
  • The emulator process for AVD xxx has terminated
  • 部署nerdctl工具