当前位置：首页 > news >正文

零拷贝原理面试回答

news 2025/10/17 11:11:24

零拷贝原理

参考回答

传统文件传输的方式、需要涉及 2 次系统调用、write 和 read 函数、期间会发生 4 次用户态与内核态上下文切换和数据拷贝次数。

而零拷贝技术的文件传输方式只需要 1 次系统调用、就是 sendfile、这样相比传统文件传输的方式、减少了 2 次用户态与内核态上下文切换次数、再加上网卡支持 SG-DMA 技术的话、数据拷贝次数只需要 2 次数据拷贝次数、就可以完成文件的传输、而且 2 次的数据拷贝过程、都不需要通过 CPU、2 次都是由 DMA 来搬运。

所以零拷贝技术主要是为了提升文件传输的效率、Kafka 消息队列 I/O 的吞吐量高的原因，也是因为使用了零拷贝技术。

2.为什么要有 DMA 技术

在没有 DMA 技术前、I/O 的过程是这样的：

CPU 发出对应的指令给磁盘控制器、然后返回
磁盘控制器收到指令后、于是就开始准备数据、会把数据放入到磁盘控制器的内部缓冲区中、然后产生一个中断；
CPU 收到中断信号后、停下手头的工作、接着把磁盘控制器的缓冲区的数据一次一个字节地读进自己的寄存器、然后再把寄存器里的数据写入到内存、而在数据传输的期间 CPU 是无法执行其他任务的。
CPU 亲自搬运数据是瓶颈： 在没有 DMA 的情况下、CPU 必须亲自参与数据的搬运过程、这严重限制了 CPU 的利用率。
小数据量尚可： 对于少量数据的传输、CPU 搬运可能还能应付。
大数据量不堪重负： 当使用千兆网卡或硬盘传输大量数据时、CPU 会被 I/O 操作完全占用、导致系统性能急剧下降、甚至崩溃。CPU 根本无法同时处理 I/O 和其他任务。

于是有了DMA技术

也就是进行I/O设备和内存的数据传输的时候、数据搬运的工作全部交给DMA控制器、而CPU不再参与任何与数据搬运相关的事情、这样CPU就可以去处理别的事务。

3.传统的文件传输上传流程

传统的服务端提供文件传输功能：

将磁盘上的文件读取出来、然后通过网络协议发送给客户端。

传统I/O的工作方式是、数据读取和写入是从用户空间到内核空间来回复制、而内核空间的数据是通过操作系统层面的I/O 接口从磁盘读取或写入。代码通常如下一般会需要两个系统调用：

read(file, tmp_buf, len) write(socket, tmp_buf, len)

应用程序（用户态）发起了文件上传的请求。

因为实现文件上传需要内核态所以需要在用户态切成内核态

实现操作系统的核心功能、如管理进程、文件系统、内存管理等、这些功能需要在内核态下执行。

用户态发起文件上传请求： 用户态的应用程序（例如浏览器、文件管理器）通过调用相关的API（例如 open()、read()、 write()、close() 等）来发起文件上传请求。这些API调用本质上是系统调用（system call）的请求。
需要切换到内核态： 用户态的程序不能直接访问硬件资源（例如磁盘、网络接口）。文件上传涉及到读写磁盘（读取要上传的文件）和通过网络发送数据，这些操作都需要内核的参与。因此必须通过系统调用切换到内核态。
系统调用： 系统调用是用户态程序请求内核服务的接口。当用户态程序发起系统调用时、会触发一个中断（通常是软件中断）、CPU会切换到内核态、执行相应的内核代码来处理请求。

传统文件上传流程（没有零拷贝）:

1.用户态发起文件上传请求： 用户态应用程序（如浏览器）调用API

（如open(), read(),write()、close()）发起上传请求。这些API调用最终会转化为系统调用

1.系统调用和上下文切换： 文件上传需要读磁盘和通过网络发送数据，这些操作都需要内核参与。因此需要通过系统调用切换到内核态。典型的流程涉及至少两个系统调用：

read(): 从文件中读取数据。

write(): 将数据写入网络套接字。每次系统调用都会导致用户态和内核态之间的上下文切换。

2.数据拷贝（4次）： 这是性能瓶颈的关键所在。首先用户选择本地磁盘上的文件进行上传

1.第一次拷贝 (DMA): 磁盘 -> 内核读缓冲区。内核使用DMA（Direct Memory Access、直接内存访问）将数据从磁盘直接拷贝到内核空间的读缓冲区。 CPU只需要发起DMA传输、然后就可以处理其他任务、DMA控制器负责完成数据拷贝。这里有一个 read（）系统调用

2.第二次拷贝 (CPU): 内核读缓冲区 -> 用户缓冲区。内核将数据从内核读缓冲区拷贝到用户应用程序提供的用户缓冲区。这个拷贝通常由CPU完成、因为内核需要控制数据的访问和权限。

3.第三次拷贝 (CPU): 用户缓冲区 -> 内核 socket 缓冲区。用户应用程序调用write()系统调用、将用户缓冲区的数据拷贝到内核空间的socket缓冲区。这个拷贝也由CPU完成。

4.第四次拷贝 (DMA): 内核 socket 缓冲区 -> 网卡缓冲区。内核将socket缓冲区的数据拷贝到网卡（网络接口卡）的缓冲区、以便通过网络发送。这个拷贝通常由DMA完成、网卡DMA控制器直接从内核socket缓冲区读取数据。

`这里有2次系统调用 4次上下文切换` 4次数据拷贝

系统调用： 2次、分别是 read() 和 write()。
上下文切换： 4次。每次系统调用都会导致用户态和内核态之间的切换。 read() 和 write() 各需要两次切换：
- 用户态 -> 内核态 (进入 read() 或 write() 系统调用)
- 内核态 -> 用户态 (从 read() 或 write() 系统调用返回)
数据拷贝： 4次、你的描述完全正确。
- DMA: 磁盘 -> 内核读缓冲区
- CPU: 内核读缓冲区 -> 用户缓冲区
- CPU: 用户缓冲区 -> 内核 socket 缓冲区
- DMA: 内核 socket 缓冲区 -> 网卡缓冲区

我们回过头看这个文件传输的过程、我们只是搬运一份数据、结果却搬运了4次、过多的数据拷贝无疑会消耗CPU资源、大大降低了系统性能。

这种简单又传统的文件传输方式、存在冗余的上下文切换和数据拷贝、在高并发系统里是非常糟糕的、多了很多不必要的开销、会严重影响系统性能。

所以要想提高文件传输的性能、就需要减少「用户态与内核态的上下文切换」和「内存拷贝」的次数。

4.如何优化文件传输的性能

如何减少「用户态与内核态的上下文切换」的次数呢

读取磁盘数据的时候、之所以要发生上下文切换、这是因为用户空间没有权限操作磁盘或网卡、内核的权限最高

这些操作设备的过程都需要交由操作系统内核来完成、所以一般要通过内核去完成某些任务的时候、就需要使用操作系统提供的系统调用函数。

而一次系统调用必然会发生2次上下文切换：首先从用户态切换到内核态、当内核执行完任务后、再切换回用户态交由进程代码执行。

所以要想减少上下文切换到次数、就要减少系统调用的次数。

那如何减少「数据拷贝」的次数

在前面我们知道了、传统的文件传输方式会历经4次数据拷贝、而且这里面

「从内核的读缓冲区拷贝到用户的缓冲区里、再从用户的缓冲区里拷贝到socket的缓冲区里」

这个过程是没有必要的。

因为文件传输的应用场景中、在用户空间我们并不会对数据「再加工」、所以数据实际上可以不用搬运到用户空间、因此用户的缓冲区是没有必要存在的。

如何实现零拷贝

零拷贝技术实现的方式通常有2种：

mmap + write sendfile

sendfile() (Linux 2.1+): sendfile() 系统调用允许内核直接将数据从文件描述符（例如磁盘文件）传输到另一个文件描述符（例如socket）。它避免了将数据复制到用户空间。
mmap() + write(): mmap() 将文件映射到内存
允许内核和用户空间共享同一块内存区域。然后write() 系统调用可以将数据从映射的内存区域传输到 socket。

1.mmap + write

在前面我们知道 read() 系统调用的过程中会把内核缓冲区的数据拷贝到用户的缓冲区里

于是为了减少这一步开销、我们可以用 mmap() 替换 read() 系统调用函数。

buf = mmap(file, len) write(sockfd, buf, len)

mmap() 系统调用函数会直接把内核缓冲区里的数据「映射」到用户空间

这样操作系统内核与用户空间就不需要再进行任何的数据拷贝操作。

第一次拷贝 (DMA): 磁盘 -> 内核读缓冲区。
第二次拷贝 (CPU): 内核读缓冲区 -> 用户缓冲区。
第三次拷贝 (CPU): 用户缓冲区 -> 内核 socket 缓冲区。
第四次拷贝 (DMA): 内核 socket 缓冲区 -> 网卡缓冲区。

我们知道 read() 系统调用的过程中会把内核缓冲区的数据拷贝到用户的缓冲区里

于是为了减少这一步开销、我们可以用 mmap() 替换 read() 系统调用函数。

具体过程如下：

应用进程调用了 mmap() 后、DMA 会把磁盘的数据拷贝到内核的缓冲区里。接着应用进程跟操作系统内核「共享」这个缓冲区
应用进程再调用 write() 操作系统直接将内核缓冲区的数据拷贝到 socket 缓冲区中、这一切都发生在内核态、由 CPU 来搬运数据；
最后把内核的 socket 缓冲区里的数据、拷贝到网卡的缓冲区里、这个过程是由 DMA 搬运的。

所以我们可以得知通过使用 mmap() 来代替 read()可以减少一次数据拷贝的过程。

mmap() 减少一次数据拷贝、它减少的是 内核读缓冲区 -> 用户缓冲区 的拷贝。

但这还不是最理想的零拷贝、因为仍然需要通过 CPU 把内核缓冲区的数据拷贝到 socket 缓冲区里

mmap() 和 write() 会导致 4 次上下文切换：

mmap() 系统调用：
1. 用户态 -> 内核态： 用户程序调用 mmap() 函数、触发一个中断、CPU从用户态切换到内核态、开始执行内核中处理 mmap() 调用的代码。
2. 内核态 -> 用户态： 内核完成 mmap() 的处理（例如建立映射关系）、然后通过一个特殊的指令（例如 iret）将CPU从内核态切换回用户态、并将控制权返回给用户程序。
write() 系统调用：
1. 用户态 -> 内核态： 用户程序调用 write() 函数、触发一个中断、CPU从用户态切换到内核态、开始执行内核中处理 write() 调用的代码。
2. 内核态 -> 用户态： 内核完成 write() 的处理（例如将数据写入 socket 缓冲区）、然后通过一个特殊的指令将CPU从内核态切换回用户态，并将控制权返回给用户程序。