当前位置: 首页 > news >正文

5、服务器互连技术(小白入门版)

像搭积木一样理解服务器

学习承诺:读完本文,你会像理解"电器怎么插插座"一样,理解服务器各部件如何连接。

核心比喻:把服务器想象成一个超级物流中心,各种货物(数据)需要在不同仓库(硬件)之间快速运输。


一、为什么要学这个?

1.1 一个真实场景

想象你是公司IT采购,老板让你买服务器训练AI模型。销售给你报价:

方案A:20万元
方案B:25万元,"性能提升50%"

你一脸懵:多花5万到底值不值?差在哪?

学完这节课你能

  • ✓ 看懂配置单上的术语(什么是"x16"、“100G”)
  • ✓ 知道为什么有的服务器贵
  • ✓ 不被销售忽悠

1.2 服务器是什么?

服务器 = 一堆零件的组合

┌─────────────────────────────────┐
│      🧠 CPU(大脑)              │
├─────────────────────────────────┤
│      📝 内存(工作台)           │
├─────────────────────────────────┤
│      🎨 GPU(加速器,可选)      │
├─────────────────────────────────┤
│      💾 硬盘(仓库)             │
├─────────────────────────────────┤
│      🌐 网卡(邮局)             │
└─────────────────────────────────┘

核心问题:这些零件之间怎么传数据

三个层次的传输

比喻实际距离速度技术
🏠 房间内递东西服务器内部几厘米超快PCIe
🏢 楼层间传递同机房服务器间几米很快网线
🌍 城市间运货跨数据中心几千公里较慢互联网

本课重点:前两个(PCIe和网络)


二、PCIe:服务器内部的"高速公路"

2.1 什么是PCIe?(用比喻)

城市道路系统

把服务器想象成一个城市:

CPU     = 市政府(决策中心)
GPU     = 工厂(生产中心)
内存    = 仓库(临时存货)
硬盘    = 远郊仓库(长期存储)
网卡    = 港口(对外贸易)

PCIe = 连接这些地方的高速公路

PCIe的三个关键数字

1️⃣ 车道数(Lanes)

规格含义用途
x1单车道小路旧设备、声卡
x4四车道普通硬盘
x8八车道网卡
x16十六车道超级高速显卡

举例

  • 一个普通固态硬盘:x4就够(四车道)
  • 一个顶级显卡:需要x16(数据量巨大)

2️⃣ 世代版本(Generation)

世代比喻速度提升
PCIe 3.0老式高速(限速120km/h)基准
PCIe 4.0新式高速(限速240km/h)2倍
PCIe 5.0超级高速(限速480km/h)4倍

关键:世代越高,同样车道数,速度翻倍

3️⃣ 带宽(Bandwidth)

简化公式

带宽 ≈ 车道数 × 世代速度例子:
PCIe 4.0 x16 ≈ 30 GB/s
PCIe 3.0 x4  ≈ 3.5 GB/s

2.2 看懂配置单

例子1:显卡

接口:PCIe 4.0 x16

解读

  • ✓ 需要16条通道(CPU要有够的通道)
  • ✓ 使用4.0版本(如果CPU只支持3.0,会慢一半)
  • ✓ 带宽约30 GB/s

例子2:固态硬盘

接口:PCIe 3.0 x4

解读

  • ✓ 只需4条通道(不占地方)
  • ✓ 3.0版本够用
  • ✓ 带宽约3.5 GB/s(比老硬盘快10倍)

2.3 CPU的"通道预算"(重要!)

核心概念

CPU的通道数是有限的,就像路口只有固定数量的出口。

实际数字

  • 便宜CPU:48条通道
  • 中端CPU:64条通道
  • 贵CPU:128条通道

怎么分配?

场景:要装很多设备

需求清单:
• 2个显卡:2 × 16 = 32条
• 1个网卡:1 × 8  = 8条
• 4个硬盘:4 × 4  = 16条
━━━━━━━━━━━━━━━━━━━━
总计:56条通道

决策

  • ✅ CPU有64条 → 够用
  • ❌ CPU只有48条 → 不够,要么减配置,要么换CPU

这就是为什么贵的CPU卖得贵

  • 不只是算得快
  • 还有更多"接口"

2.4 常见误区

误区1:“买了PCIe 5.0硬盘,应该快很多”

  • 真相:如果CPU只支持4.0,硬盘也只能跑4.0速度

误区2:“插槽看起来都一样,随便插”

  • 真相:有些插槽是"假16车道"(实际只有x8),要看说明书

误区3:“通道够用就行,版本无所谓”

  • 真相:同样x16,PCIe 5.0比3.0快4倍!

三、网络:服务器之间的"快递系统"

3.1 为什么需要网络?

单机 vs 集群

单机(一台服务器)

优点:简单
缺点:能力有限比如:一个人在家做手工

集群(多台协作)

优点:能干大事
缺点:需要高速通信比如:100人的工厂,需要频繁交流

关键:服务器间的通信速度,决定集群效率

3.2 网络的"快慢"

两个核心指标

1️⃣ 带宽(水管粗细)

规格速度比喻
1G125 MB/s细水管(家用)
10G1.25 GB/s粗水管(企业)
100G12.5 GB/s超粗水管(数据中心)

直观对比

1G网络:每秒传 120张照片
100G网络:每秒传 10部电影差距:100倍

2️⃣ 延迟(快递速度)

技术延迟比喻
普通网络100微秒普通快递(3天)
RDMA2微秒高铁快递(5小时)

差距:50倍

3.3 两种技术对比

以太网 vs InfiniBand

以太网(Ethernet) 📶

优点:
✅ 便宜(100G网卡:5000元)
✅ 兼容性好(所有设备都支持)
✅ 维护简单(普通网管都会)缺点:
⛔ 延迟稍高(10-50微秒)
⛔ CPU占用大适合:大部分公司(性价比高)

InfiniBand(IB)

优点:
✅ 超低延迟(1-2微秒)
✅ CPU占用低
✅ 性能极致缺点:
⛔ 贵(200G网卡:2万元)
⛔ 只能IB设备之间通信
⛔ 需要专业人员维护适合:顶尖AI公司、超算中心

怎么选?

决策树:① 预算够吗?├─ 不够 → 选以太网└─ 够 → 继续② 需要极致性能吗?(训练超大AI)├─ 是 → 选InfiniBand└─ 否 → 继续③ 团队会维护IB吗?├─ 不会 → 选以太网(风险小)└─ 会 → 选InfiniBand

3.4 RDMA技术(加分项)

什么是RDMA?

传统方式(寄快递)

步骤1:你把包裹交给快递员
步骤2:快递员送到快递站
步骤3:快递站分拣
步骤4:配送到目的地中间环节多 → 慢

RDMA方式(直升机空投)

步骤1:直升机直接扔到你家院子中间环节少 → 快50倍

技术细节(可跳过):

  • 普通网络:数据要经过CPU处理
  • RDMA:数据直接从内存到内存

记住:RDMA = 快 + 省CPU


四、机柜:服务器的"衣柜"

4.1 什么是机柜?

机柜 = 专门放服务器的大铁柜子

标准尺寸:
• 宽:19英寸(固定)
• 高:42U(1U ≈ 4.5厘米)
• 深:约1米能装:20-40台服务器

为什么要机柜?

三个好处

  1. 节省空间(40台堆整齐)
  2. 方便管理(线缆、供电规划好)
  3. 便于维护(坏了抽出来修)

4.2 四大挑战

1️⃣ 供电问题

问题:40台服务器总功耗可能10千瓦

  • 相当于10台空调同时开

解决

  • 高压电(380V,不是家用220V)
  • 多个电源备份

2️⃣ 散热问题

问题:10千瓦功耗 = 10千瓦热量

  • 相当于10个大暖气

解决

方案成本效果适用
风冷够用普通服务器
机房空调中等密度
液冷非常好高密度GPU

风冷原理

前面吸冷风 → 加热 → 后面排热风机房布局:
[冷通道] [热通道] [冷通道]↓吸风↓  ↑排风↑  ↓吸风↓

3️⃣ 布线问题

问题:每台服务器至少4根线

  • 40台 × 4 = 160根线

解决

  • 专门走线槽
  • 标签管理
  • 颜色区分

4️⃣ 网络拓扑

简化理解

       [大交换机]/   |   \[机柜1][机柜2][机柜3]每个机柜顶部有小交换机↓40台服务器

好处

  • 同机柜通信快
  • 跨机柜也不慢

五、真实案例:AI训练服务器

5.1 配置单(简化版)

CPU:    AMD EPYC 9654(96核)PCIe 5.0通道:128条功耗:360WGPU:    8× Nvidia H100每个占用:x16总功耗:5600W内存:   1.5TB硬盘:   4× NVMe SSD(8TB)每个占用:x4网络:   2× 400G InfiniBand每个占用:x16电源:   6× 3000W(冗余)散热:   液冷价格:   约150万元

5.2 配置分析

PCIe通道够吗?

需求计算:
• 8个GPU:8 × 16 = 128条
• 2个网卡:2 × 16 = 32条
• 4个硬盘:4 × 4  = 16条
━━━━━━━━━━━━━━━━━━━━━
总计:176条CPU提供:128条(不够!)解决:用2个CPU
• CPU1:管8个GPU(128条)
• CPU2:管网卡+硬盘(48条)

为什么这么贵?

成本拆解:
• GPU:8 × 15万 = 120万(占80%)
• CPU:2 × 5万  = 10万
• 内存:5万
• 其他:15万
━━━━━━━━━━━━━━━━━━━━━
总计:150万

功耗分析

功耗:
• GPU:5600W
• CPU:720W
• 其他:680W
━━━━━━━━━━━
总计:7000W相当于:70台笔记本电脑

为什么要液冷?

7000W热量:
• 风冷:需要巨大风扇,像飞机起飞
• 液冷:安静,效率高3倍权衡:液冷贵2万,但值得

5.3 常见问题

Q1:能只买1个GPU省钱吗?

  • A:可以!但速度慢8倍

Q2:为什么不买便宜CPU?

  • A:便宜CPU通道少(48条),装不下8个GPU

Q3:IB能换成万兆网卡吗?

  • A:可以,但GPU通信慢10倍

Q4:电费多少?

计算:
• 功耗:7kW
• 电价:1元/度
• 每天:7 × 24 = 168元
• 每年:168 × 365 = 6万3年电费:18万(占成本12%)

六、总结:记住这些就够

6.1 核心概念

PCIe

概念记法
通道数x4普通,x16高端
世代5.0比3.0快4倍
CPU预算便宜48条,贵128条

网络

概念记法
带宽1G慢,100G快
延迟RDMA快50倍
选择以太网便宜,IB极致

机柜

概念记法
功耗普通5kW,高端15kW
散热液冷贵但效率高3倍
尺寸19英寸宽,42U高

6.2 决策树(抄作业版)

选服务器

步骤1:确定用途
├─ AI训练 → GPU服务器
├─ 数据库 → 大内存+快硬盘
├─ Web → 多核CPU
└─ 存储 → 多硬盘+快网络步骤2:看预算
├─ 紧 → 少GPU
└─ 足 → 多GPU步骤3:算通道
公式:GPU数×16 + 网卡×8 + 硬盘数×4
├─ 超过CPU → 换CPU或减配
└─ 没超过 → 可以买步骤4:选网络
├─ 极致性能+预算够 → IB
└─ 其他 → 以太网

6.3 避坑指南

坑1:被忽悠"通道数"

  • ✅ 问清:CPU到底多少PCIe通道

坑2:买5.0设备,主板只支持4.0

  • ✅ 检查:CPU、主板、设备都要匹配

坑3:机房电力不够

  • ✅ 提前算:功耗×数量 < 机房供电

坑4:网络买便宜的成瓶颈

  • ✅ 原则:高端GPU配高端网络

七、课后练习

7.1 基础题

1. PCIe x16的"16"指什么?

  • A. 速度是x1的16倍
  • B. 有16条数据通道 ✅
  • C. 16GB带宽
  • D. 支持16个设备

2. CPU有64条通道,装4个GPU(x16)和2个网卡(x8),够吗?

  • A. 够,还剩很多
  • B. 刚好够
  • C. 不够 ✅(4×16+2×8=80条)
  • D. 不确定

3. AI训练为什么用IB?

  • A. 更便宜
  • B. 延迟低,GPU通信快 ✅
  • C. 兼容性好
  • D. 更好看

7.2 实战题

场景:公司要买服务器,预算30万

需求

  • 2个GPU(每个8万)
  • 2TB内存
  • 快速网络(10台互联)

问题

  1. CPU至少多少通道?
  2. 选以太网还是IB?
  3. 电源至少多少W?

答案

  1. 48条(2×16GPU + 8网卡 + 8硬盘)
  2. 以太网(预算不够IB)
  3. 2000W(2×700GPU + 600其他)

八、延伸学习

8.1 推荐资源

新手

  • 📺 YouTube:“Linus Tech Tips”(装机视频)
  • 📘 厂商官网产品介绍(AMD/Intel/Nvidia)
  • 🛠️ PCPartPicker.com(检查兼容性)

进阶

  • 📚《深入理解计算机系统》
  • 📄 PCI-SIG官网(PCIe规范)
  • 🎓 MIT 6.004(计算机架构课程)

8.2 术语表

中文英文缩写
外设组件互连Peripheral Component Interconnect ExpressPCIe
远程直接内存访问Remote Direct Memory AccessRDMA
非易失性存储Non-Volatile Memory ExpressNVMe
智能网卡Smart Network Interface CardSmartNIC
机架单元Rack UnitU

结语 🎉

恭喜你看完!现在你已经:

  • ✅ 理解服务器各部件如何连接
  • ✅ 能看懂配置单
  • ✅ 知道如何选配置
  • ✅ 不会被销售忽悠

核心原则

  • 通道数要匹配
  • 带宽要平衡
  • 预算要权衡

下次看配置单,问三个问题

  1. PCIe通道够吗?
  2. 哪里是瓶颈?
  3. 性价比合理吗?

记住:技术复杂,但原理简单——匹配和平衡!💪

http://www.dtcms.com/a/523869.html

相关文章:

  • 我爱学算法之—— 分治-归并
  • 济南高新区 网站制作wordpress直接购买
  • 织梦网站首页幻灯片不显示新华美玉官方网站在线做
  • 蓝色星球如何打造能与企业共同进化的灵活系统
  • 【问题】在VSCode中设置conda的Python环境
  • NGINX 负载均衡应用实战:从配置到策略的深度解析
  • 关于buildroot文件系统中rootfs的内容,该怎么增删(瑞芯微rv1126b)
  • Qt 入门简洁笔记:信号与槽
  • 算法入门---专题二:滑动窗口2(最大连续1的个数,无重复字符的最长子串 )
  • 手机摄像头如何识别体检的色盲检查图的数字和图案(下)
  • 政务系统信创改造中,金仓日志如何满足等保2.0三级审计要求
  • 记录一个监控网卡某个IP发送流量
  • Python-UnitTest框架
  • 模型-模型压缩:量化、剪枝、蒸馏、二值化
  • UE5 蓝图-12:pawn蓝图,轴映射-鼠标右键,补充轴映射与操作映射的区别。相机的旋转俯仰逻辑,伸缩逻辑,浮点差值函数 FInterpTo;
  • Vcenter7使用主机配置文件重置ESXI主机 root 密码
  • STL 容器:List
  • 做网站销售好累网上开店的货源渠道有哪些
  • 图像,视频Lora模型训练的Timestep Type时间步类型
  • 告别云端依赖!ComfyUI本地化视频生成实战教程+cpolar实战
  • Android16之如何获取APP、Bin进程的UID(二百六十三)
  • 在JavaScript / HTML中,无法通过开发者工具查看DOM元素中input里输入的密码
  • 像素塔防游戏:像素守卫者
  • 什么是栈?深入理解 JVM 中的栈结构
  • Go Web 编程快速入门 07.2 - 模板(2):解析与执行(含Demo)
  • 公司用wordpress建站用花钱大连网站设计开发
  • 建设网站需要下载神呢软件吗重庆企业网站推广公司
  • 常规面光源在工业视觉检测上的应用
  • 数据结构——直接插入排序
  • 如何开公司做网站素材免费网站