【高清视频】CXL 2.0 over Fibre演示和答疑 - 将内存拉到服务器10米之外
CXL协议出来已经6年半了(2019/3发布1.0版本),感兴趣的朋友可以翻翻我们写的《Saniffer公司PCIe5 and 6.0_CXL_NVMe相关测试技术和工具白皮书_ver12.3》章节10.1,目前业内主要的应用还是集中在CXL type 3 memory expansion扩展应用,简单讲就是通过PCIe总线扩展内存,用来补足通过传统内存条DIMM插槽提供的内存容量不够多的问题。
CXL 1.0重点突出的是单机直连,即CPU插槽只能直连CXL扩展卡;CXL 2.0则增加了针对CXL SWITCH的支持,常见的拓扑是多台服务器server可以通过PCIe cable连接到一个内存池扩展柜,里面使用CXL Switch然后连接到多个CXL 2.0扩展卡。
我们昨天下午搭建了一个环境则是将CXL 2.0服务器通过光缆将一个CXL 2.0内存扩展卡延伸到10米之外,感兴趣的朋友可以直接点击下面的高清视频,里面详细展示了CXL是如何通过光缆进行扩展,基本原理及解释。想购买该套CXL over Fibre环境的朋友也可以参考本文底部的方式联系我们。
【高清视频】CXL 2.0 over Fibre演示和答疑 - 将内存拉到服务器10米之外
背景
大规模 AI 训练和高性能计算(HPC)对系统内存容量和带宽的需求不断增长,但传统直连内存通道受限于固定长度和铜缆带宽,导致“内存墙”问题。Compute Express Link(CXL)是一种基于 PCIe 的高带宽、低延迟互连标准,允许主机 CPU/SoC 通过附加设备扩展或共享内存。CXL 2.0 规范在 CXL 1.1 的基础上增加了 内存池化、交换机 与 多主机(端口加速) 支持,使得不同主机能够访问共享的 CXL 内存设备。同时,PCI‑SIG 正在制定 PCIe 光接口工作组,认为基于光的接口可以 扩展传输距离、提高速率并降低功耗。这种趋势为将 CXL 2.0 与光互连结合提供了基础。
演示概述
国内首次“PCIe 5.0/CXL 2.0 over Optics”演示利用光学互连将 CXL 2.0 内存扩展模块与服务器主机分离 10 米 之远(本次演示受制于实际光纤长度限制,实际可以到50米),仍保持低延迟和高吞吐。注意:PCIe/CXL over Fibre和PCIe/CXL over Optics是一个意思!PCI SIG官方一般叫Optics。
演示架构包括:
-
主机系统 – 配备支持 CXL 2.0 的 CPU/SoC,通过 PCIe 5.0 x8 或 x16 连接光互连适配卡;适配卡将电信号转换为光信号。
-
光缆链路 – 使用光缆和相应的光收发器,传输距离约 10 米。光信号可大幅降低插入损耗并消除铜缆长度限制,传统 PCIe 铜缆通常只能达到 1–2 米。
-
CXL 2.0 内存扩展模块(Type‑3) – 远端采用 E3.S 2T 或 AIC 扩展卡形式,内置 DDR4/DDR5 内存,支持热插拔、内存池化和动态容量扩展。模块通过光收发器连接主机,操作系统将其识别为“远端”内存。
该演示展示了跨 10 米光纤实现内存读/写操作,系统延迟仅略高于本地 CXL 连接。这表明光学互连可以满足 CXL 2.0 的时延要求,并为跨机柜甚至跨机架的内存扩展奠定基础。
技术亮点
CXL 2.0 内存扩展模块
-
E3.S 2T 规范 – Advantech 的 CXL 2.0 Type 3 模块采用 E3.S 2T 封装,通过 EDSSF 标准实现可热插拔、低功耗的内存扩展。在该规范下,模块不仅可扩展服务器内存容量,还能通过 CXL 交换机实现内存池化。
-
PCIe 5.0 接口 – 模块使用 PCIe 5.0 PHY,提供 32 GT/s 每通道的链路带宽。相较于 RDIMM,CXL 模块可实现更高的每核心内存带宽与 24 % 的带宽提升!
-
内存池化与共享 – CXL 2.0 允许多个主机通过交换机访问共享的内存池,实现灵活的资源分配。Micron 指出,其 CXL 内存扩展模块能让服务器 OEM 在多个工作负载间整合和扩展内存容量,改善系统性能并降低 TCO。
光互连的优势
-
长距离低损耗 – PCI‑SIG 光接口工作组认为光学接口可显著扩展 PCIe 的传输距离,并降低功耗。
-
高带宽适配 – 光互连不仅适用于 PCIe 5.0,还能支持未来更高速的标准。
-
功耗和热效益 – 光信号在长距离传输中具有更低的损耗和电磁干扰,可显著降低互连功耗,减少服务器内部发热,使系统易于维护。
规范与前沿
-
CXL 2.0 新功能 – CXL 2.0 引入内存池化和交换机支持,使多台主机通过 CXL 交换机访问共享内存。这种架构允许按需分配远端内存,并支持热插拔和容量动态扩展。
-
光接口工作组 (PCI‑SIG) – PCI‑SIG 于 2023 年成立 PCIe Optical Workgroup,目标是制定支持光信号的 PCIe 物理层规范。
-
未来展望 – 随着 CXL 3.0 发布,内存共享、持久内存支持和端到端网络将进一步加强。结合光互连的 CXL 3.0 可构建跨机柜的分布式内存池,为人工智能、大数据分析和云计算提供弹性资源。
总结
本次 PCle 5.0/CXL 2.0 over Optics 演示通过 10 米光缆 将 CXL 2.0 内存扩展模块连接到主机,证明光互连可以在更长距离上保持 CXL 内存语义和低延迟。这是国内首次将光学互连用于 CXL 内存扩展的实机演示,也是推进光学 CXL 标准和产品化的重要里程碑。光互连能够支持从 PCIe 5.0 到 7.0 的高数据速率,并在 10 米甚至 100 米距离内保持极低误码率。随着 业内厂商推出兼容 CXL 2.0 的内存模块,光学 CXL 生态正逐渐成熟。未来,光互连将与 CXL 3.0 相结合,构建大规模可组合的内存池,解决 AI/HPC 的“内存墙”问题,实现数据中心内资源的灵活调度。
下面简单介绍一下本次演示中AOC光缆的光电转换部分采用的LPO方式,这个和400G/800G/1.6T光模块最常使用的DSP芯片方式有什么不同。好多搞PCIe的朋友可能不是熟悉数据通讯领域的光通讯技术,其实可以将DSP芯片想象成PCIe领域的retimer,干的活差不多。下面简单对比一下两种方式。 //* 注意:视频中LPO校对的时候全部写成了LPU,写错了!
在光模块(尤其是高速以太网、PCIe/CXL over optics)领域里,LPO 通常是 Linear Pluggable Optics 的缩写。它与 DSP(Digital Signal Processor)光模块 并列,是两种不同的信号处理方式。
1. LPO(Linear Pluggable Optics)
-
含义:光模块内部不再集成复杂的 DSP 块,而是采用线性驱动和线性探测(Linear Drive/Receive),尽量保持电信号到光信号的透明映射。
-
特点:
-
模块简单,延迟极低(因为没有DSP编解码/均衡/重定时过程)。
-
功耗较小。
-
对链路环境要求更高(需要主机/交换机 SerDes 提供很强的均衡与容错能力)。
-
-
使用范围:
-
常见于数据中心 短距应用(如 500m~2km 的直连场景)。
-
PCIe over Fibre 的一些线性光学方案(因为 PCIe 链路要求超低延迟,无法容忍DSP级的处理延迟)。
-
新兴的 CPO(co-packaged optics) 和 LPO 模块正在替代部分传统DSP光模块,用来降低系统能耗。
-
2. DSP 光模块
-
含义:模块内部带有 DSP 芯片,对高速PAM4信号进行均衡、重定时、FEC前/后处理等。
-
特点:
-
容错性强,能补偿链路损耗和抖动。
-
插拔即用,主机侧对信号质量要求低。
-
功耗大,延迟增加(通常几十纳秒~上百纳秒)。
-
-
使用范围:
-
长距链路(如10km甚至更远的以太网光模块)。
-
互通性要求高的网络环境,因为DSP可以屏蔽不同设备SerDes性能差异。
-
主流 400G/800G 以太网AOC/光模块(QSFP-DD/OSFP)目前大多依赖DSP。
-
3. 为什么会并存?
-
DSP方案:可靠性强、部署简单,但功耗大、延迟高。
-
LPO方案:功耗和延迟优势明显,但需要主机侧的高速 SerDes(例如 112G/224G PAM4)具备很强的线性均衡能力。
-
趋势:在超大规模数据中心,LPO和CPO正在兴起,用来替代部分DSP模块,降低总功耗;但在长距和跨厂商互通场景,DSP模块仍是主流。
一句话总结:
-
LPO(Linear Pluggable Optics)= 简洁、低延迟、低功耗,依赖主机SerDes → 适合短距/对延迟敏感的应用(如PCIe over Fibre、机内互连)。
-
DSP光模块 = 容错强、长距适用,但延迟和功耗更高 → 适合长距/网络环境复杂的场景。
下面是整理的一份 DSP 光模块 vs. LPO 光模块对比表,我们可以一眼看清两者的核心差异:
对比维度 | DSP 光模块 | LPO 光模块 (Linear Pluggable Optics) |
---|---|---|
架构 | 内置 DSP 芯片,负责均衡、重定时、FEC、抖动补偿 | 无 DSP,采用线性驱动/探测,信号基本透明直通 |
延迟 | 高(几十 ns ~ 上百 ns,取决于DSP处理) | 极低(基本只有光电转换延迟,<10 ns) |
功耗 | 高(常见 5~10W+,随速率提升而增加) | 低(可比 DSP 模块省 30~50% 功耗) |
链路容错性 | 强,能适应劣质信号链路 | 弱,依赖主机/交换机的SerDes均衡能力 |
典型传输距离 | 中/长距(500m ~ 80km,不同速率和标准) | 短距(机内/机架内,500m ~ 2km 常见) |
互通性 | 好,跨厂商环境容易即插即用 | 一般,需要主机和模块高度匹配 |
典型应用 | 以太网长距链路(400G/800G ER/ZR)、城域网、互联机架 | 数据中心短距互连(机架内、PCIe over Fibre、CPO/LPO新方案) |
优点 | 部署简单,容错强,适应环境广 | 延迟低,功耗低,适合大规模部署和低延迟应用 |
缺点 | 功耗大、延迟高 | 对主机要求高,生态尚不成熟 |
总结:
-
DSP 光模块 = “全功能、容错强、长距” → 更适合复杂环境和长距离链路。
-
LPO 光模块 = “低延迟、低功耗、依赖主机能力” → 更适合短距、延迟敏感(如 PCIe over Fibre、CXL、AI 集群机架内)应用。
那么,我们的演示视频中提到使用DSP技术会有几十纳秒~上百纳秒的延迟,为啥这么大?DSP主要厂家是Broadcom, Marvell,新兴的Credo,Alphawave这类公司也推出了这类DSP,未来市场还有机会吗?下面我们逐一拆解一下:
1. 为什么 DSP 光模块延迟能到几十 ns ~ 上百 ns?
DSP 光模块的延迟主要来自于 信号处理链路:
-
ADC/DAC 转换延迟:DSP 模块要把模拟的 PAM4 信号采样成数字码流(ADC),处理后再由 DAC 恢复为模拟波形。这一来一回本身就有几个 ns 的 pipeline。
-
前向纠错 (FEC):为了降低误码率,DSP 会做编码/解码(如 RS-FEC)。虽然 PCIe Gen6/7 的 FEC 相对轻量,但以太网 400G/800G 模块的 FEC 往往要加 10–100ns 延迟。
-
均衡与重定时 (DFE/FFE, CDR):DSP 内部需要运行复杂的滤波器和时钟恢复逻辑来补偿链路损伤。根据复杂度,延迟也在 10–50ns 量级。
-
Pipeline & Buffering:DSP 常有并行处理 pipeline(多级移位寄存器),如果需要小规模缓冲(比如对齐、交织),会进一步带来几十 ns 延迟。
所以常见 DSP 光模块总延迟会在 30–150ns 区间,而 LPO 由于没有 DSP,只是模拟驱动+光电转换,延迟通常 <10ns。
2. DSP 的主要厂商
-
Broadcom:长期在光模块 DSP 芯片市场占主导,尤其是 400G/800G PAM4 DSP。
-
Marvell:凭收购 Inphi 切入市场,Inphi 的 PAM DSP 产品线在 400G/800G/1.6T 是重要玩家。
-
Credo:新兴厂商,专注低功耗 DSP,同时推动 LPO/Linear驱动+AFE 方案,主打“节能替代”。
-
Alphawave Semi:原本做 SerDes IP,现在也推出面向光模块的 DSP 与 AFE 芯片,试图切入数据中心光互连市场。
-
其他:MaxLinear、Eoptolink 等也在部分速率段推出 DSP 或 AFE。
3. 新兴厂商的机会
尽管 Broadcom 和 Marvell 占据大部分出货量(尤其是 hyperscale 客户的主流 400G/800G 模块),但新兴厂商仍有机会:
-
功耗压力:大规模 AI 训练集群要求降低功耗,Credo、Alphawave 提供的 低功耗 DSP / LPO AFE 更有吸引力。
-
延迟敏感应用:如 PCIe/CXL over optics,不允许 DSP 引入的大延迟,新兴厂商提供的 Linear AFE(无FEC/DSP)更适配。
-
速率升级:从 112G → 224G → 448G 的过程中,新的 DSP 架构需要重新设计,老大厂的护城河相对变弱,新玩家有切入窗口。
一句话总结: DSP 光模块延迟几十到上百纳秒,主要源于 ADC/DAC、FEC、均衡/重定时处理。Broadcom 和 Marvell 仍是绝对主力,但随着 AI 集群的低延迟、低功耗需求,Credo、Alphawave 这类厂商正通过 LPO/低功耗DSP 找到切入机会。