当前位置: 首页 > news >正文

深入理解 Linux 阻塞IO与Socket数据结构

一、阻塞IO的直观演示

示例代码:最简单的阻塞接收程序

#include <stdio.h>
#include <sys/socket.h>
#include <netinet/in.h>int main() {// 创建TCP套接字int sockfd = socket(AF_INET, SOCK_STREAM, 0);// 绑定地址端口struct sockaddr_in addr;addr.sin_family = AF_INET;addr.sin_port = htons(8080);addr.sin_addr.s_addr = INADDR_ANY;bind(sockfd, (struct sockaddr*)&addr, sizeof(addr));// 开始监听listen(sockfd, 5);printf("等待客户端连接...\n");// 阻塞点1:接受连接struct sockaddr_in client_addr;socklen_t len = sizeof(client_addr);int clientfd = accept(sockfd, (struct sockaddr*)&client_addr, &len);printf("客户端已连接!\n");// 阻塞点2:接收数据char buf[1024];int ret = recv(clientfd, buf, sizeof(buf), 0);printf("收到数据:%s\n", buf);close(clientfd);close(sockfd);return 0;
}

以下是等效的 Java 版本实现,保留了阻塞 IO 的特性并添加了详细注释:

import java.io.IOException;
import java.io.InputStream;
import java.net.ServerSocket;
import java.net.Socket;public class BlockingIOServer {public static void main(String[] args) {// 创建TCP套接字并绑定端口(对应C的socket+bind+listen)try (ServerSocket serverSocket = new ServerSocket(8080)) {System.out.println("等待客户端连接...");// 阻塞点1:接受客户端连接(对应C的accept)Socket clientSocket = serverSocket.accept();System.out.println("客户端已连接!");// 阻塞点2:接收数据(对应C的recv)InputStream inputStream = clientSocket.getInputStream();byte[] buffer = new byte[1024];// read()方法会阻塞直到有数据到达int bytesRead = inputStream.read(buffer); System.out.println("收到数据:" + new String(buffer, 0, bytesRead));// 自动关闭资源(Java 7+ try-with-resources)} catch (IOException e) {e.printStackTrace();}}
}

其实本质上java的代码和C语言代码是一样的,都是调用对应的系统函数。

阻塞行为分析
  1. accept() 调用阻塞:直到有客户端连接才会继续执行
  2. recv() 调用阻塞:当连接建立后,如果客户端不发送数据,进程会一直挂起

二、Socket全生命周期

2.1 创建阶段:从用户态到内核态的旅程

int sockfd = socket(AF_INET, SOCK_STREAM, 0);
流程详解(附内核调用链):
用户空间调用 socket()
↓
系统调用 sys_socket() → 陷入内核
↓
sock_create() → 创建通用socket对象
↓
查找协议族 net_families[AF_INET] → 获取IPv4协议族操作表
↓
调用 inet_create() → 创建TCP/UDP专用socket
│   ↓
分配 struct sock 结构 → 初始化连接状态为 TCP_CLOSE
↓
注册协议操作函数 → 设置 tcp_prot(TCP协议处理引擎)
↓
关联文件描述符 → 通过 file_operations 绑定读写方法

关键步骤深度解析

  1. 协议族选择

    // net/socket.c
    static int __init sock_init(void) {// 初始化时注册协议族rc = netlink_kernel_create(&init_net, NETLINK_ROUTE, ...);rc = inet_add_protocol(&icmp_protocol, IPPROTO_ICMP);...
    }
    
    • net_families[AF_INET] 指向 ipprot 结构,包含IPv4协议处理函数
  2. 传输层协议绑定

    // net/ipv4/af_inet.c
    int inet_create(struct net *net, struct socket *sock, int protocol) {// 根据协议类型选择处理引擎if (protocol == IPPROTO_TCP)sock->ops = &inet_stream_ops;  // TCP操作集else if (protocol == IPPROTO_UDP)sock->ops = &inet_dgram_ops;   // UDP操作集// 分配TCP专用数据结构sk = sk_alloc(net, PF_INET, GFP_KERNEL, &tcp_prot, 0);
    }
    
  3. 资源预分配

    • 预分配接收队列缓存:sk->sk_receive_queue(基于内存池的sk_buff分配)
    • 初始化等待队列:sk->sk_sleep(后续阻塞操作的基础设施)

2.2 连接建立阶段:TCP三次握手的微观视角

connect(sockfd, (struct sockaddr*)&addr, sizeof(addr));
状态转换全景图:
TCP_CLOSE → TCP_SYN_SENT → TCP_ESTABLISHED↑           ↑            ↑SYN        SYN-ACK       ACK
内核处理流水线:
用户调用 connect()
↓
tcp_connect() → 设置状态为 TCP_SYN_SENT
↓
生成SYN报文 → 调用 ip_queue_xmit() 发送
↓
进入状态机等待 → sk->sk_state = TCP_SYN_SENT
↓
等待ACK到达 → 触发 sk_state_change 回调

关键机制详解

  1. SYN报文发送

    // net/ipv4/tcp_output.c
    int tcp_connect(struct sock *sk) {// 构建SYN报文struct sk_buff *skb = alloc_skb(sizeof(struct tcphdr) + ...);tcp_init_nondata_skb(skb, tcp_current_seq(sk), TCPHDR_SYN);// 发送队列管理skb_queue_tail(&sk->sk_write_queue, skb);ip_queue_xmit(sk, NULL, skb);
    }
    
  2. 等待队列机制

    // 当前进程进入等待状态
    set_current_state(TASK_INTERRUPTIBLE);
    add_wait_queue_exclusive(&sk->sk_sleep, &wait);while (sk->sk_state != TCP_ESTABLISHED) {if (signal_pending(current))return -EINTR;schedule();
    }
    
  3. 状态机驱动

    // net/ipv4/tcp_states.h
    static const struct tcp_state_trans tcp_established_transitions = {.transitions = {[TCP_ESTABLISHED] = {.event = TCP_EARLY_DATA,.next_state = TCP_ESTABLISHED,.action = tcp_rcv_established,},// 处理ACK包的回调注册},
    };
    

阻塞行为本质
当调用 connect() 时:

  1. 若端口不可用/连接被拒绝 → 立即返回错误
  2. 若正常发送SYN → 进程进入 TASK_UNINTERRUPTIBLE 等待
  3. 当收到SYN-ACK后 → 内核完成握手 → 触发 sk->sk_data_ready
  4. 最终唤醒进程 → 返回成功

2.3 生命周期全景图

socket()
bind()+listen()
accept()收到SYN
收到ACK
close()
收到ACK
收到FIN
2MSL超时
CLOSED
LISTEN
SYN_RCVD
ESTABLISHED
FIN_WAIT_1
FIN_WAIT_2
TIME_WAIT

各阶段内存管理

  • 创建阶段:预分配接收缓冲区(sk->sk_rmem_alloc
  • 传输阶段:动态调整发送窗口(sk->snd_wnd
  • 关闭阶段:释放关联的skb队列

三、核心数据结构详解

3.1 socket结构体家族树

struct socket
├── struct file (VFS层对象)
└── struct sock (协议无关层)├── struct tcp_sock (TCP协议私有数据)└── struct udp_sock (UDP协议私有数据)

请添加图片描述
具体解释见下面

3.2 关键数据结构详解

3.2.1 struct socket:用户态与内核态的桥梁
struct socket {const struct proto_ops *ops;  // 协议操作函数表(TCP/UDP/SCTP等)struct sock *sk;              // 核心协议栈对象(传输层控制块)struct file *file;            // 关联的文件描述符(VFS接口)
};

核心功能解析:

  • ops指向协议族操作表(如inet_stream_ops),代码如下:
const struct proto_ops inet_stream_ops = {.family    = PF_INET,.recvmsg   = inet_recvmsg,   // 接收消息入口.sendmsg   = inet_sendmsg,    // 发送消息入口.accept    = inet_accept,     // 接受新连接.bind      = inet_bind,       // 绑定端口...
};

通过函数指针实现协议无关接口,支持多协议扩展,类比Java接口实现:就像Java中DataSource接口可以有不同的实现类(MySQL/Oracle),C语言通过proto_ops函数指针数组实现协议多态。当用户调用read()系统调用时,最终会通过socket->ops->recvmsg调用具体协议的接收函数。例如udp协议的接收消息,这里的recvmsg会指向udp的接收实现,如果是tcp协议,recvmsg那么就指向tcp的接收实现(经过三次握手后,可以接收消息)。

  • *sk,核心协议栈对象,下面会有解释,此处略
  • *file,关联的文件描述符,file指针将socket映射到文件系统,实现read()/write()等文件操作语义
3.2.2 struct sock
struct sock {const struct proto *sk_prot;     // 协议处理函数(如 tcp_prot)struct sk_buff_head sk_receive_queue; // 接收队列wait_queue_head_t    sk_sleep;    // 进程等待队列头 sk_wqvoid (*sk_data_ready)(struct sock *sk);  // 数据就绪通知回调// ...其他字段
};
  • 协议处理引擎 sk_prot
// TCP协议处理结构体
struct proto tcp_prot = {.name                  = "TCP",.err_handler           = tcp_err,          // 错误处理.recvmsg               = tcp_recvmsg,      // 数据接收(含流量控制).sendmsg               = tcp_sendmsg,      // 数据发送(含拥塞控制)//...其它字段
};

工作流程示例:当应用层调用send()时,数据会经过以下路径:

用户空间缓冲区 → socket->ops->sendmsg → tcp_sendmsg → 协议栈处理 → 驱动程序发送
  • 接收队列 sk_receive_queue,即网络数据包
  • 等待队列 sk_sleep阻塞行为本质:当接收队列为空时,进程会被挂入sk_sleep队列,直到有数据到达触发唤醒。
  • sk_data_ready 负责在数据就绪时触发进程唤醒,是阻塞IO模型的核心机制。具体看下文。

四、阻塞IO唤醒机制

4.1 sk_data_ready 的本质

定义
sk_data_readystruct sock 中定义的一个函数指针,其类型为 void (*sk_data_ready)(struct sock *sk)。它是 协议栈向应用层传递数据就绪通知的核心机制,所有传输层协议(TCP/UDP)都需要实现此回调。

代码定位

// net/core/sock.h
struct sock {...void (*sk_data_ready)(struct sock *sk);  // 数据就绪通知回调...
};

4.2 工作流程:从网卡到应用层

以下是 sk_data_ready 被触发的完整链路(以TCP为例):

graph TDA[网卡接收数据包] --> B[硬件中断]B --> C[软中断(napi_schedule)]C --> D[napi_poll处理]D --> E[ip_rcv() → tcp_v4_rcv()]E --> F[协议处理(tcp_rcv)]F --> G[调用sk_data_ready(sk)]G --> H[唤醒等待队列(sk_sleep)]H --> I[应用层recv()返回数据]

关键步骤解析

  1. 中断阶段:网卡收到数据包触发硬件中断,注册的中断处理函数标记 NAPI 结构体。
  2. 软中断阶段:内核的 ksoftirqd 线程执行 napi_poll(),开始处理接收队列。
  3. 协议栈处理:数据包经过IP层、TCP层解析,最终进入 tcp_v4_rcv()
  4. 触发回调:在协议处理完成后,内核调用 sk->sk_data_ready(sk)
  5. 唤醒进程sk_data_ready 的默认实现会调用 sk_wake_async(),最终通过 wake_up_interruptible(&sk->sk_sleep) 唤醒等待队列中的进程。

4.3、sk_data_ready 与阻塞IO的阻塞/唤醒机制

4.3 1. 阻塞IO的核心逻辑

当应用层调用阻塞型 recv() 时:

// 系统调用入口 sys_recvfrom
if (skb_queue_empty(&sk->sk_receive_queue)) {// 数据未就绪,进程进入睡眠set_current_state(TASK_INTERRUPTIBLE);add_wait_queue(&sk->sk_sleep, &wait);schedule();  // 主动让出CPUremove_wait_queue(...);
}
4.3.2. sk_data_ready 的触发时机
  • 数据就绪时:当 sk_data_ready 被调用时,会触发以下动作:
    // 默认实现(net/core/sock.c)
    static inline void sock_def_readable(struct sock *sk, int len) {if (!sock_flag(sk, SOCK_DEAD)) {// 唤醒所有在sk_sleep队列中等待的进程wake_up_interruptible(&sk->sk_sleep);// 触发异步通知(如信号)sk_wake_async(sk, SOCK_WAKE_IO, POLL_IN);}
    }
    
4.3.3. 阻塞IO的唤醒本质
  • 等待队列(Wait Queue):进程在调用阻塞型 recv() 时会被加入 sk->sk_sleep 队列,并设置为不可中断状态(TASK_INTERRUPTIBLE)。
  • 唤醒条件:只有当 sk_data_ready 被调用时,才会触发队列唤醒。这意味着:
    • 数据必须通过协议栈处理完成(如TCP三次握手完成、数据包校验通过)。
    • 内核协议栈确认数据已准备好被用户空间读取。

在这里插入图片描述

请添加图片描述

总结

通过本文的学习,你应该已经掌握:

  1. 阻塞IO的底层行为模式
  2. Socket从创建到数据传输的完整生命周期
  3. 核心数据结构(socket/sock/sk_buff)的协作关系
  4. 系统调用到内核处理的完整链路

参考文档

  • 深入理解Linux网络: 修炼底层内功,掌握高性能原理 (张彦飞)

相关文章:

  • 目标检测(Object Detection)研究方向常用数据集简单介绍
  • 6.5 行业特定应用:金融、医疗、制造等行业的定制化解决方案
  • ts axios中报 Property ‘code‘ does not exist on type ‘AxiosResponse<any, any>‘
  • 如何配置 VScode 断点调试Linux 工程代码
  • 总结七种提示优化方案的核心实现流程
  • 数据分析指标体系
  • 信息论01:从通信到理论的飞跃
  • 移植的本质是什么
  • UE5 C++项目实现单例
  • Java泛型深度解析与电商场景应用
  • ExtraMAME:复古游戏的快乐“时光机”
  • Github 2025-05-06Python开源项目日报 Top10
  • Spring AI 与大语言模型工具调用机制详细笔记
  • 昇腾Atlas 200I DK A2 开发者套件无法上网问题的解决
  • Vision-Language Models (VLMs) 视觉语言模型的技术背景、应用场景和商业前景(Grok3 DeepSearch模式回答)
  • OpenCV 图形API(77)图像与通道拼接函数-----对图像进行几何变换函数remap()
  • 【愚公系列】《Manus极简入门》022-艺术创作顾问:“艺术灵感使者”
  • Pycharm(十九)深度学习
  • Android SDK 开发中的 AAR 与 JAR 区别详解
  • 爬虫程序中如何添加异常处理?
  • 用社群活动维系“不开发”古镇的生命力
  • 印度袭击巴基斯坦已致至少3人死亡
  • 蓝佛安:中方将采取更加积极有为的宏观政策,有信心实现今年5%左右增长目标
  • 五一假期上海楼市延续向好态势,成交量同比增加36%
  • 申活观察|演出场次破纪录、入境游导游档期忙,上海文旅商“热力”拉满
  • 全国铁路迎来返程客流高峰,预计今日发送2040万人次