当前位置: 首页 > news >正文

【Linux网络-五种IO模型与阻塞IO】

一、引入

网络通信的本质就是进程间的通信,进程间通信的本质就是IO(Input,Output)

I/O(input/output)也就是输入和输出,在冯诺依曼体系结构当中,将数据从输入设备拷贝到内存就叫作输入,将数据从内存拷贝到输出设备就叫作输出

站在进程的角度,站在网络的角度

  • 如何理解IO?

IO = 等 + 拷贝,我们在使用read/recv/send/write等,有数据的时候就拷贝到自己的或者对应的缓冲区,没有数据的时候,就进行阻塞等待或者非阻塞等待

  • 什么叫做高效的IO?

本质就是单位时间内,减少等的比重

二、五种IO模型

1.例子引入

现在我们来谈谈钓鱼,钓鱼 = 等 + 钓,IO也是等 + 拷贝,我们现在借着钓鱼的例子来理解五种IO模型

  • 现在有5个人去钓鱼
  • 张三钓鱼一直不动(别人与张三说话,张三也不理对方),眼睛一直盯着鱼漂,鱼漂动了,就拉起鱼竿
  • 李四钓鱼一直在动,没事就刷刷抖音,和张三说说话(张三不理他),顺便检测鱼漂,鱼漂动了,就拉起鱼竿
  • 王五钓鱼在鱼竿上挂了铃铛,鱼一旦上钩,铃铛就会响,就拉起鱼竿
  • 赵六钓鱼买了很多鱼竿,把每根鱼竿插在岸边,一直在岸边跑来跑去,任何一个鱼竿就绪,就拉起鱼竿
  • 田七钓鱼带来一个司机小王,但田七临时有事离开钓鱼塘,田七对小王说:渔具什么我全部给你准备好了,我在给你一个水桶,等你把水桶装满,你在打电话给我,然后回来;田七没有参与调用,只负责发起钓鱼

在IO中,这里的人可以看作系统调用、鱼竿就是sockfd,钓鱼塘是系统内部,鱼就是数据,鱼漂浮动就是数据就绪,钓就是发生拷贝

  • 张三,李四和王五的钓鱼效率本质是一样的吗?

是的,因为他们钓鱼方式都是一样的,都是先等鱼上钩,然后再将鱼钓上来

其次,他们每个人都只拿一根鱼竿,在等待鱼的上钩,当河里鱼来咬鱼钩的时候,这条鱼咬哪一个鱼钩的概率是相同的

  • 谁的效率更高?

赵六,因为赵六减少了等待概率的发生,增加了拷贝的时间,所以他的效率是最高的

赵六的效率之所以高,是因为赵六一次等待多个鱼竿的鱼上钩,可以将“等”的时间进行重叠

  • 如何看待田七的钓鱼方式?

田七没有参与调用,只负责发起钓鱼;田七没有参与等+拷贝的任意一项,而真正钓鱼的是小王,在小王钓鱼的期间,田七可以干任意的事情,如果将钓鱼看作是一种 IO 的话,那么田七的这种钓鱼方式就叫作异步 IO

  • 概念整理

张三:阻塞IO

李四:非阻塞IO

王五:信号驱动IO

赵六:多路复用/多路转接IO

田七+小王:异步IO

阻塞IO与非阻塞IO的本质就是等的方式不同

【例子】在之前的echo例子中,键盘向OS输入,实际将键盘输入的数据放入到OS内部的输入缓冲区,当进程需要这个数据的时候,将输入缓冲区的内容拷贝到进程,进程执行结果后将数据拷贝到OS内部的输出缓冲区,显示器从输出缓冲区拷贝内容,最终就把结果回显给我们

在这里插入图片描述

IO = 等 + 拷贝

多路转接的作用就是为了等待多个fd,等待该fd上面的新事件(OS底层有数据了,读时间就绪,或者OS底层有空间了,写事件就绪)就绪,通知程序员,事件已经就绪,可以进行IO拷贝了

2.阻塞IO

阻塞IO:在内核将数据准备好之前,系统调用会一直等待;所有的套接字,默认都是阻塞方式

阻塞IO是最常见的IO模型

在这里插入图片描述

应用进程通过recvfrom函数从某个套接字上读取数据时,如果底层的数据没有准备好,那么这个进程就一直在这个地方等待着,一旦数据就绪后,才会将数据从内核拷贝到用户空间,最后recvfrom才会返回

这种以阻塞方式进行IO操作的进程或线程,在“等”和“拷贝”期间都不会返回,在用户看来就是阻塞了,因此被称为阻塞IO

3.非阻塞IO

如果内核还未将数据准备好,系统调用仍然会直接返回,并且返回EWOULDBLOCK错误码

非阻塞IO往往需要程序员循环的方式反复尝试读写文件描述符,这个过程称为轮询,这对CPU来说是较大的浪费,一般只有特定场景下才使用

在这里插入图片描述

当调用recvfrom函数以非阻塞方式从某个套接字上读取数据时,如果底层数据没有准备好,那么recvfrom就会立马错误返回,而不是让该进程进行阻塞等待

因为没有读取数据,所以该进程或线程后续还需要继续调用recvfrom函数,检测底层数据是否就绪,如果没有就继续错误返回,直到监测到底层有数据后,再将数据从内核拷贝到用户空间,再进行成功返回

阻塞与非阻塞的区别就是,非阻塞可以去做其他事情,而阻塞就一直在等

fcntl

在Linux操作系统中,fcntl() 函数是一个用于文件控制的系统调用。它允许你以不同的方式操作打开的文件描述符。这个函数接受三个参数:

fd:要操作的文件描述符。

cmd:指定要执行的文件控制命令。

...:根据 cmd 命令的不同,可能需要传递额外的参数。

cmd 参数值用途
F_DUPFD复制文件描述符,返回一个新的文件描述符,它是当前最低可用文件描述符。
F_GETFD获取文件描述符的close-on-exec标志。
F_SETFD设置文件描述符的close-on-exec标志。
F_GETFL获取文件状态标志和访问模式(如O_RDONLY, O_WRONLY, O_RDWR)。
F_SETFL设置文件状态标志,如O_APPEND, O_NONBLOCK等。
F_GETLK获取记录锁。
F_SETLK设置或释放记录锁(非阻塞)。
F_SETLKW设置或释放记录锁(阻塞)。

将指定的文件描述符设置为非阻塞模式

void SetNonBlock(int fd)
{
    int fl = ::fcntl(fd, F_GETFL);
    if(fl < 0)
    {
        std::cout << "fcntl error" << std::endl;
        return;
    }
    ::fcntl(fd, F_SETFL, fl | O_NONBLOCK);
}

下面代码演示了非阻塞能够收到EWOULDBLOCK返回

并且也能区分error是出错了 还是因为非阻塞返回的

#include <iostream>
#include <cstdio>
#include <unistd.h>
#include "Comm.hpp"

#include <sys/select.h>

int main()
{
    char buffer[1024];
    SetNonBlock(0);
    while(true)
    {
        // printf("Enter# ");
        // fflush(stdout);
        ssize_t n = ::read(0, buffer, sizeof(buffer)-1);
        if(n > 0)
        {
            buffer[n] = 0;
            printf("echo# %s", buffer);
        }
        else if(n == 0)  // ctrl + d
        {
            printf("read done\n");
            break;
        }
        else
        {
            // 如果是非阻塞,底层数据没有就绪,IO接口,会以出错形式返回
            // 所以,如何区分  底层不就绪  vs   真的出错了? 根据errno错误码

            if(errno == EWOULDBLOCK)
            {
                sleep(1);
                std::cout << "底层数据没有就绪,开始轮询检测" << std::endl;
                std::cout << "可以做其他事情" << std::endl;
                // do other thing
                continue;
            }
            else if(errno == EINTR)
            {
                continue;
            }
            else
            {
                perror("read");
                break;
            }
            // perror("read\n"); 
            // printf("n=%ld\n", n);
            // //底层数据没有就绪: errno 会被设置成为 EWOULDBLOCK EAGAIN
            // printf("errno=%d\n", errno); 
            // break;
        }
    }

    return 0;
}

测试结果:
当我们输入数据,而不按回车的时候,底层仍然在轮询检测,当我们输入回车的时候;echo出来的内容与我们输入的内容一致

在这里插入图片描述

4.信号驱动

内核将数据准备好的时候,使用SIGIO信号通知应用程序进行IO操作

在这里插入图片描述

应用程序通过系统调用sigaction来设置一个SIGIO信号的处理函数。这个处理函数将在接收到SIGIO信号时被触发。内核处于等待状态,直到数据准备好。数据准备好时,内核会发出一个SIGIO信号通知应用程序。应用程序捕获到SIGIO信号后,它会执行recvfrom系统调用来从网络接收数据,recvfrom系统调用完成后,内核会将控制权交还给应用程序,同时传递回成功的指示,数据报从内核空间复制到用户空间,应用程序现在可以在用户空间内处理收到的数据报了

如果数据正在从内核空间拷贝到用户空间的缓冲区过程中,那么在此期间,应用程序可能会暂时阻塞,直到数据拷贝完成。

信号的产生是异步的,但信号驱动 IO 是同步 IO 的一种。

因为它依然参与了等 + 拷贝

5.IO多路转接

虽然从流程图上看起来和阻塞IO类似,实际上最核心在于IO多路转接能够同时等待多个文件描述符的就绪状态

使用select最主要的目的:将等 + 拷贝两个操作分开。select专门负责等,recvfrom负责拷贝

在这里插入图片描述

  • 应用程序通过调用select函数来阻塞自己,等待多个套接字中的任何一个变为可读状态。这意味着应用程序会暂停执行,直到至少一个套接字准备好读取数据。
  • 当操作系统检测到某个套接字的数据已经准备好可以读取时,它会通知应用程序,并通过select函数返回这个信息。
  • 应用程序收到操作系统的通知后,它可以通过recvfrom系统调用来实际从套接字中读取数据。这个调用会将数据从网络层复制到应用程序指定的缓冲区中。
  • 内核负责管理数据的接收、存储以及最终传递给应用程序的过程。具体来说,当数据到达内核的网络堆栈时,内核会将其暂存起来,然后根据应用程序的要求进行相应的处理。
  • 数据被内核成功接收并准备好供应用程序读取的状态。
  • 内核将数据从其内部缓存(通常称为“内核空间”)拷贝到应用程序分配的用户空间内存区域
  • 数据拷贝完成后,应用程序就可以访问这些数据并进行进一步的处理了。

因为这些多路转接接口是一次 “等” 多个文件描述符的,因此能将 “等” 的时间重叠,数据就绪后再调用对应的 recvfrom 等函数进行数据的拷贝,此时这些函数就能够直接进行拷贝,而不需要 “等” 了

6.异步IO

由内核在数据拷贝完成时,通知应用程序(而信号驱动是告诉应用程序何时可以开始拷贝数据)。

在这里插入图片描述

应用进程调用aio_read函数发起一个异步读操作。内核检查数据是否准备好供读取(如果数据未准备好,内核会等待直到数据准备好;一旦数据准备好,内核会将数据拷贝到用户空间缓冲区中)当数据被成功拷贝到用户空间时,内核通知应用程序数据已经可用,应用程序可以继续执行其他任务,而不需要等待I/O操作的完成,当I/O操作完成后,内核通过信号或回调函数通知应用程序。

7.小结

任何IO过程中,都包含两个步骤,第一个是等待,第二是拷贝,而且在实际的应用场景中,等待消耗的时间往往都远远高于拷贝的时间。让IO更高效,最核心的办法就是让等待的时间尽量少

三、高级IO重要概念

1.同步通信 VS 异步通信(Synchronous Communication / Asynchronous Communication)

同步和异步关注的是消息通信机制

  • 所谓同步,就是在发出一个调用时,在没有得到结果之前,该调用就不返回。但是一旦调用返回,就得到返回值了。换句话说,就是由调用者主动等待这个调用的结果。
  • 异步则是相反,调用在发出之后,这个调用就直接返回了,所以没有返回结果。换句话说,当一个异步过程调用发出后,调用者不会立刻得到结果。而是在调用发出后,被调用者通过状态、通知来通知调用者,或通过回调函数处理这个调用。

另外,我们回忆在讲多进程多线程的时候,也提到同步和互斥,这里的同步通信和进程之间的同步是完全不想干的概念

  • 进程 / 线程同步:指的是在保证数据安全的前提下,让进程/线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,谈论的是进程/线程间的一种工作关系。
  • 同步 IO:指的是进程/线程与操作系统之间的关系,谈论的是进程/线程是否需要主动参与 IO 过程。

注意:尤其是在访问临界资源的时候,一定要弄清楚这个 “同步”,是同步通信异步通信的同步,还是同步与互斥的同步。

2.阻塞 VS 非阻塞

阻塞和非阻塞关注的是程序在等待调用结果(消息,返回值)时的状态。

  • 阻塞调用是指调用结果返回之前,当前线程会被挂起。调用线程只有在得到结果之后才会返回。
  • 非阻塞调用指在不能立刻得到结果之前,该调用不会阻塞当前线程。

3.其他高级 IO

非阻塞 IO、 纪录锁、系统 V 流机制、 I/O 多路转接(也叫 I/O 多路复用), readv 和 writev 函数以及存储映射 IO( mmap ),这些统称为高级 IO。

相关文章:

  • 23种设计模式-生成器(Builder)设计模式
  • k8s kubernetes dashboard一直CarshLoopBackoff
  • 【强化学习】重要性采样(Importing Sample)
  • uniapp从 vue2 项目迁移到 vue3流程
  • 计算机二级web易错点(6)-选择题
  • 分库分表后,跨库查询和分布式事务解决方案
  • 详解内联容器标签<span>的用法
  • TruPlasma MF 7000 7150 (G2)软件
  • 《需求工程实战指南:从理论到避坑,附大创项目案例》
  • yolo目标检测算法在DJI上的研究分析(大纲)
  • 银河麒麟桌面版包管理器(三)
  • 算力100问☞第93问:算力资源为何更分散了?
  • TensorFlow面试题及参考答案
  • 练习-日期统计
  • (C语言)习题练习 sizeof 和 strlen
  • 虚拟机安装centos7
  • JVM 类加载器之间的层次关系,以及类加载的委托机制
  • 网络基础(一)
  • ultraiso制作u盘启动
  • 北单111 奥斯汀FC vs 圣地亚哥FC
  • 夜读丨什么样的前程值得把春天错过
  • 霍步刚任辽宁沈阳市委书记
  • 深圳南澳码头工程环评将再次举行听证会,项目与珊瑚最近距离仅80米
  • 证监会:2024年依法从严查办证券期货违法案件739件,作出处罚决定592件、同比增10%
  • 《上海市建筑信息模型技术应用指南(2025版)》发布
  • 视频丨中国海警成功救助8名外籍遇险渔民,韩方向中方致谢