当前位置: 首页 > news >正文

《深入理解Linux网络》笔记

《深入理解Linux网络》笔记

  • 前言
  • 参考

前言

前段时间看了《深入理解Linux网络》这本书,虽然有些地方有以代码充篇幅的嫌疑,但总体来说还是值得一看的。在这里简单记录一下笔记,记录下对网络新的理解。


  • 内核是如果接受网络包的?
    在这里插入图片描述
    如上图所示,整个流程基本如下:
  • 数据包首先从网络中到达主机中的网卡设备
  • 网卡通过DMA把数据帧运到内存中
  • 之后网卡通过触发硬终端(触发电平变化)来通知CPU有网络包到达
  • CPU收到硬中断之后,会调用网络设备注册的中断处理函数。在这个函数中响应中断进行简单的处理,燃弧发出软中断(linux中整个中断过程分为上半部(硬中断)和下半部(软中断))。
  • 内核线程(ksoftirqd线程, 内核启动的时候会专门创建一些软中断内核线程,一般来说,机器上有几个核心就会有几个ksoftirqd内核线程)响应软中断,调用网卡驱动注册的poll函数开始收包。从RingBuffer中(就是之前DMA运输的地方)摘取一个帧,然后交给上层的协议栈进行具体的处理。
  • tcpdump抓包和iptable过滤包的原理大概是什么?
    tcpdump是一个常用的抓包工具,其原理概括来说就是通过类似一个回调的机制,将其挂到网络包传输的路径中。当有网络包到来(或者发送出去)的时候内核会调用将数据包传给tcpdump的回调函数,就可以达到抓包的效果。

    iptable其实本质上也一样,只不过iptable会对经过的包进行过滤、修改。而tcpdump一般只是查看。
    有一点不一样的是,tcpdump是工作在设备层的(所以tcpdump还可以查看数据链路层的一些包信息),而iptable是工作在IP层(ARP层)的。
    如下图所示。
    在这里插入图片描述
    在这里插入图片描述
    ps: netfilter可以理解就是 iptable。
  • top命令中hi,si代表啥意思?
    在这里插入图片描述
    如果了解了linux的中断原理,也就对top命令中hi,si有了更深的理解。hi代表硬中断的开销,si代表软中断的开销
  • 关于系统调用陷入内核态的一些理解
    对于一个程序来说,通过系统调用(比如说write数据到网络中)陷入内核态之后,还依旧执行的是这个程序的活系统还依旧算着这个进程的cpu运行时间),只不过是陷入到了内核态,算是这个程序的内核态线程(并不是新建了一个内核态线程)在执行。这也就是所谓的进程的内核上下文。
  • 如果使用的是普通的同步阻塞网络读写调用,一般来说,会进行至少两次进程的上下文切换(一个是无数据到达时阻塞、另一个是数据到达时唤醒)。一般来说,每一次进程的上下文切换都需要花费3-5微秒的时间,以CPU视角来说,这其实已经不少了,而且上下文的切换并没有干什么实质性的活,所以,很多机制都尽量减少不必要的上下文切换(比如说自旋锁、 epoll等机制。)
  • epoll、poll等多路复用机制高效在什么地方?
    在我看来,多路复用机制高效的本质在于可以同时监听多个套接字,这样就一旦其中有需要读写的事件到来,就可以尽量减少进程的上下文切换(不像同步操作read、write那样进行频繁的阻塞),让进程更专注的处理网络请求。

    整个epoll机制基本如下图所示。
    在这里插入图片描述
    通过epoll_ctl加入需要监听的多个套接字。当某一个套接字对应的网络包从网卡到来之时,通过内核的软硬件中断进行处理,然后将请求放入epoll对象的就绪列表中。

    epoll_wait就是从就绪列表中看是否有事件到达,如果有则取出进行处理。 在高并发的场景中,epoll_wait会一直处理,知道没活的时候才会让出CPU.

    而红黑树只是epoll中用来快速查找、删除socket时用的数据结构,并不是epoll支持高并发的根本原因。
  • 关于tcp分段和ip分片的一些理解
    对于一般的tcp传输来说,下层的mac协议限制的帧的大小,MTU一般是1500字节。如果超过了MTU,mac层将无法传输(应该会丢弃)。对应MTU,ip层也有响应的长度限制MSS,如果超过了这个限制之后,ip层会执行分片,以避免mac层将数据丢弃。但是ip层的分片会导致一些问题:一个是额外的分片开销;另一个是如果一个分片丢失了,上层的整个包都需要重传(对于TCP来说整个包会重传,对于UDP来说,数据包就是丢失了);

    所以,tcp层为了减少ip分片,在tcp层就将数据包进行了分段,使装入ip层数据不大于MSS,这样,ip层就不会进行分片,也不会有一个分片丢失,整个数据包都得重传的尴尬。
  • 如果想通过网络发送一个文件,会涉及到哪些内存拷贝呢?
    一般来说,我们想通过网络发送一个本地的文件,会首先通过read()系统调用将文件读到内存中,然后在write()到远端。这其中涉及到磁盘-内核空间-用户空间的内存拷贝过程
    如下图所示。一共涉及到4次的用户态和内核态的上下文切换和4次的内存拷贝。
    在这里插入图片描述
    仔细分析一下其实知道,如果不需要再用户空间修改文件内容的话,完全不需要将数据拷贝到用户空间。
    所以,一般来说有几种方式可以提高这种场景的内存效率。
    1. 通过 mmap + write
      即通过linux提供的mmap内存映射,将内核缓冲区里的数据映射到用户空间,这样,操作系统内核与用户空间就不需要再进行任何的数据拷贝操作。
      在这里插入图片描述这样需要4次的用户态和内核态的上下文切换,和3次的内存拷贝。
    2. 使用sendfile系统调用
      在 Linux 内核版本 2.1 中,提供了一个专门发送文件的系统调用函数 sendfile()。该系统调用,可以直接把内核缓冲区里的数据拷贝到 socket 缓冲区里,不再拷贝到用户态,这样就只有 2 次上下文切换,和 3 次数据拷贝。
      sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
      在这里插入图片描述
      而且从 Linux 内核 2.4 版本开始起, 对于支持 SG-DMA 技术的网卡,sendfile还可以进一步减少cpu的干预,直接从内存缓存中拷贝到网卡,如下图所示。
      在这里插入图片描述算是真正做到了零拷贝。
      kafka之所以性能突出,一个重要的原因就是利用了这种零拷贝技术。
  • 关于linux路由表
    linux默认情况下会丢掉不属于本机IP的数据包。将net.ipv4.ip_forward设置为1后,会开启路由功能,Linux会像路由器一样对不属于本机的IP数据包进行路由转发。

    linux可以配置多个路由表,默认有三个已有的路由表:
    在这里插入图片描述> 1. local: 处理本地IP和广播地址路由,local路由表只由kernel维护,不能更改和删除
    2. main: 处理所有非策略路由,不指定路由表名时默认使用的路由表
    3. default: 所有其他路由表都没有匹配到的情况下,根据该表中的条目进行处理
  • 关于本机网络
    在这里插入图片描述
    我们使用ifconfig可以看到一个lo的回环设备,这是内核虚拟出来的一个本机网卡设备,所有127.0.0.1的网络IO都直接通过这个lo进行传输,不需要经过实际的网络设备,所以即使拔了网线,也依然可以对127.0.0.1的网络IO进行请求。

    除了127.0.0.1之外,本机ip(如上图中的10.0.20.6)也是一样的,使用本机ip也可以访问本地服务,走的也是lo回环设备。
  • listen系统调用本质上是在干啥?
    对于我们熟知的网络系统调用Listen来说,其一个重要的作用就是在内核中建立并初始化好半队列(用来存储经过第一次握手的socket)和全队列(用来存储已经建立连接的socket, accept 其实就是从这里消费tcp连接的)的数据接口,为接下来TCP的握手连接做好准备。
  • 关于tcp的建立过程的一些细节
    tcp通过三次握手来建立连接。 一般来说,
    1. 客户端通过connect来建立连接,客户端发送SYN 连接握手请求,然后启动定时器
    2. 服务端收到请求之后,内核会发出SYN ACK, 这个时候将请求放入半连接队列。 同时也会启动一个重传定时器(所以如第二次握手发出之后,迟迟收不到第三次握手, 服务端会进行重传第二次握手)。
    3. 然后客户端收到SYN ACK之后,清除重传定时器,将连接置为已连接,然后发送第三次握手ACK。
  1. 服务端收到第三次握手之后,将连接冲半连接队列里删除,然后加入全连接队列。等待accept来消费连接
    整个过程如下图所示。
    在这里插入图片描述
    一般来说,建立一个tcp连接需要1.5个RTT, 根据通信双方的远近一般需要几十到几百毫秒的样子。 (一般来说,同地区的不同机房一般大约是几ms,北京到广东大概30-40ms)
  • 一条空的tcpl连接(只建立连接但是不发送数据)大概需要3-4kb的内存空间。 一条TIME_WAIT状态的连接需要消耗0.4kb的样子。所以机器上如果TIME_WAIT过多一般影响的不是内存而是端口号。
  • 一个机器可以建立多少个连接?
    要理解,一条tcp连接是有(src ip, src port, dst ip, dsp port) 四元组来构成的,所以对于一个客户端来说,说是根据16bit 的port 只能建立65536个连接,这是不正确的。 限制服务器端和客户端连接的最主要的是内存和cpu,如果这些是充足的,一台服务器建立百万连接完全是可能的。

参考

【1】《深入理解Linux网络》
【2】为什么 TCP/IP 协议会拆分数据
【3】Linux 内存拷贝

相关文章:

  • 基于语言模型的依存关系分句 和 主题变换检测(基于词频和句段得分)的 意思
  • JavaScript基础-全局作用域
  • 内存、磁盘、CPU区别,Hadoop/Spark与哪个联系密切
  • Hadoop 2.x设计理念解析
  • hot100-子串-JS
  • 17.Excel:实用的 VBA 自动化程序
  • 嵌入式Web服务器lighttpd交叉编译详解
  • 8.2.CICD自动化
  • 青藏高原七大河流源区径流深、蒸散发数据集(TPRED)
  • 远程调试---在电脑上devtools调试运行在手机上的应用
  • 在 Excel 中有效筛选重复元素
  • 365打卡第R8周: RNN实现阿尔茨海默病诊断
  • Jmeter中的Json提取器如何使用?
  • CH579 CH573 CH582 CH592 蓝牙主机(Central)实例应用讲解
  • 生产级AI/ML特征存储平台:Feast全面使用指南 — Use Cases Third party integrations FAQ
  • TransmittableThreadLocal:穿透线程边界的上下文传递艺术
  • PostgreSQL 的 pg_advisory_lock_shared 函数
  • 机器学习 day01
  • 【金仓数据库征文】金融行业中的国产化数据库替代应用实践
  • 抖音视频上传功能测试全维度拆解——从基础功能到隐藏缺陷的深度挖掘
  • 著名蒙古族音乐学者马•斯尔古愣逝世,享年86岁
  • 印方称所有敌对行动均得到反击和回应,不会升级冲突
  • 央行谈MLF:逐步退出政策利率属性回归流动性投放工具
  • 夜读丨古代有没有近视眼?
  • 现场丨“影像上海”启幕:串联摄影、电影与当代艺术
  • 绍兴柯桥:用一块布托起中国制造的新经纬