当前位置：首页 > news >正文

【高清视频】CXL 2.0 over Fibre演示和答疑 - 将内存拉到服务器10米之外

news 2025/10/1 8:19:29

CXL协议出来已经6年半了（2019/3发布1.0版本），感兴趣的朋友可以翻翻我们写的《Saniffer公司PCIe5 and 6.0_CXL_NVMe相关测试技术和工具白皮书_ver12.3》章节10.1，目前业内主要的应用还是集中在CXL type 3 memory expansion扩展应用，简单讲就是通过PCIe总线扩展内存，用来补足通过传统内存条DIMM插槽提供的内存容量不够多的问题。

CXL 1.0重点突出的是单机直连，即CPU插槽只能直连CXL扩展卡；CXL 2.0则增加了针对CXL SWITCH的支持，常见的拓扑是多台服务器server可以通过PCIe cable连接到一个内存池扩展柜，里面使用CXL Switch然后连接到多个CXL 2.0扩展卡。

我们昨天下午搭建了一个环境则是将CXL 2.0服务器通过光缆将一个CXL 2.0内存扩展卡延伸到10米之外，感兴趣的朋友可以直接点击下面的高清视频，里面详细展示了CXL是如何通过光缆进行扩展，基本原理及解释。想购买该套CXL over Fibre环境的朋友也可以参考本文底部的方式联系我们。

【高清视频】CXL 2.0 over Fibre演示和答疑 - 将内存拉到服务器10米之外

背景

大规模 AI 训练和高性能计算（HPC）对系统内存容量和带宽的需求不断增长，但传统直连内存通道受限于固定长度和铜缆带宽，导致“内存墙”问题。Compute Express Link（CXL）是一种基于 PCIe 的高带宽、低延迟互连标准，允许主机 CPU/SoC 通过附加设备扩展或共享内存。CXL 2.0 规范在 CXL 1.1 的基础上增加了 内存池化、交换机 与 多主机（端口加速） 支持，使得不同主机能够访问共享的 CXL 内存设备。同时，PCI‑SIG 正在制定 PCIe 光接口工作组，认为基于光的接口可以 扩展传输距离、提高速率并降低功耗。这种趋势为将 CXL 2.0 与光互连结合提供了基础。

演示概述

国内首次“PCIe 5.0/CXL 2.0 over Optics”演示利用光学互连将 CXL 2.0 内存扩展模块与服务器主机分离 10 米 之远（本次演示受制于实际光纤长度限制，实际可以到50米），仍保持低延迟和高吞吐。注意：PCIe/CXL over Fibre和PCIe/CXL over Optics是一个意思！PCI SIG官方一般叫Optics。

演示架构包括：

主机系统 – 配备支持 CXL 2.0 的 CPU/SoC，通过 PCIe 5.0 x8 或 x16 连接光互连适配卡；适配卡将电信号转换为光信号。
光缆链路 – 使用光缆和相应的光收发器，传输距离约 10 米。光信号可大幅降低插入损耗并消除铜缆长度限制，传统 PCIe 铜缆通常只能达到 1–2 米。
CXL 2.0 内存扩展模块（Type‑3） – 远端采用 E3.S 2T 或 AIC 扩展卡形式，内置 DDR4/DDR5 内存，支持热插拔、内存池化和动态容量扩展。模块通过光收发器连接主机，操作系统将其识别为“远端”内存。

该演示展示了跨 10 米光纤实现内存读/写操作，系统延迟仅略高于本地 CXL 连接。这表明光学互连可以满足 CXL 2.0 的时延要求，并为跨机柜甚至跨机架的内存扩展奠定基础。

技术亮点

CXL 2.0 内存扩展模块

E3.S 2T 规范 – Advantech 的 CXL 2.0 Type 3 模块采用 E3.S 2T 封装，通过 EDSSF 标准实现可热插拔、低功耗的内存扩展。在该规范下，模块不仅可扩展服务器内存容量，还能通过 CXL 交换机实现内存池化。
PCIe 5.0 接口 – 模块使用 PCIe 5.0 PHY，提供 32 GT/s 每通道的链路带宽。相较于 RDIMM，CXL 模块可实现更高的每核心内存带宽与 24 % 的带宽提升!
内存池化与共享 – CXL 2.0 允许多个主机通过交换机访问共享的内存池，实现灵活的资源分配。Micron 指出，其 CXL 内存扩展模块能让服务器 OEM 在多个工作负载间整合和扩展内存容量，改善系统性能并降低 TCO。

光互连的优势

长距离低损耗 – PCI‑SIG 光接口工作组认为光学接口可显著扩展 PCIe 的传输距离，并降低功耗。
高带宽适配 – 光互连不仅适用于 PCIe 5.0，还能支持未来更高速的标准。
功耗和热效益 – 光信号在长距离传输中具有更低的损耗和电磁干扰，可显著降低互连功耗，减少服务器内部发热，使系统易于维护。

规范与前沿

CXL 2.0 新功能 – CXL 2.0 引入内存池化和交换机支持，使多台主机通过 CXL 交换机访问共享内存。这种架构允许按需分配远端内存，并支持热插拔和容量动态扩展。
光接口工作组 (PCI‑SIG) – PCI‑SIG 于 2023 年成立 PCIe Optical Workgroup，目标是制定支持光信号的 PCIe 物理层规范。
未来展望 – 随着 CXL 3.0 发布，内存共享、持久内存支持和端到端网络将进一步加强。结合光互连的 CXL 3.0 可构建跨机柜的分布式内存池，为人工智能、大数据分析和云计算提供弹性资源。

总结

本次 PCle 5.0/CXL 2.0 over Optics 演示通过 10 米光缆 将 CXL 2.0 内存扩展模块连接到主机，证明光互连可以在更长距离上保持 CXL 内存语义和低延迟。这是国内首次将光学互连用于 CXL 内存扩展的实机演示，也是推进光学 CXL 标准和产品化的重要里程碑。光互连能够支持从 PCIe 5.0 到 7.0 的高数据速率，并在 10 米甚至 100 米距离内保持极低误码率。随着业内厂商推出兼容 CXL 2.0 的内存模块，光学 CXL 生态正逐渐成熟。未来，光互连将与 CXL 3.0 相结合，构建大规模可组合的内存池，解决 AI/HPC 的“内存墙”问题，实现数据中心内资源的灵活调度。

下面简单介绍一下本次演示中AOC光缆的光电转换部分采用的LPO方式，这个和400G/800G/1.6T光模块最常使用的DSP芯片方式有什么不同。好多搞PCIe的朋友可能不是熟悉数据通讯领域的光通讯技术，其实可以将DSP芯片想象成PCIe领域的retimer，干的活差不多。下面简单对比一下两种方式。 //* 注意：视频中LPO校对的时候全部写成了LPU，写错了！

在光模块（尤其是高速以太网、PCIe/CXL over optics）领域里，LPO 通常是 Linear Pluggable Optics 的缩写。它与 DSP（Digital Signal Processor）光模块 并列，是两种不同的信号处理方式。

1. LPO（Linear Pluggable Optics）

含义：光模块内部不再集成复杂的 DSP 块，而是采用线性驱动和线性探测（Linear Drive/Receive），尽量保持电信号到光信号的透明映射。
特点：
- 模块简单，延迟极低（因为没有DSP编解码/均衡/重定时过程）。
- 功耗较小。
- 对链路环境要求更高（需要主机/交换机 SerDes 提供很强的均衡与容错能力）。
使用范围：
- 常见于数据中心 短距应用（如 500m~2km 的直连场景）。
- PCIe over Fibre 的一些线性光学方案（因为 PCIe 链路要求超低延迟，无法容忍DSP级的处理延迟）。
- 新兴的 CPO（co-packaged optics） 和 LPO 模块正在替代部分传统DSP光模块，用来降低系统能耗。

2. DSP 光模块

含义：模块内部带有 DSP 芯片，对高速PAM4信号进行均衡、重定时、FEC前/后处理等。
特点：
- 容错性强，能补偿链路损耗和抖动。
- 插拔即用，主机侧对信号质量要求低。
- 功耗大，延迟增加（通常几十纳秒~上百纳秒）。
使用范围：
- 长距链路（如10km甚至更远的以太网光模块）。
- 互通性要求高的网络环境，因为DSP可以屏蔽不同设备SerDes性能差异。
- 主流 400G/800G 以太网AOC/光模块（QSFP-DD/OSFP）目前大多依赖DSP。

3. 为什么会并存？

DSP方案：可靠性强、部署简单，但功耗大、延迟高。
LPO方案：功耗和延迟优势明显，但需要主机侧的高速 SerDes（例如 112G/224G PAM4）具备很强的线性均衡能力。
趋势：在超大规模数据中心，LPO和CPO正在兴起，用来替代部分DSP模块，降低总功耗；但在长距和跨厂商互通场景，DSP模块仍是主流。

一句话总结：

LPO（Linear Pluggable Optics）= 简洁、低延迟、低功耗，依赖主机SerDes → 适合短距/对延迟敏感的应用（如PCIe over Fibre、机内互连）。
DSP光模块 = 容错强、长距适用，但延迟和功耗更高 → 适合长距/网络环境复杂的场景。

下面是整理的一份 DSP 光模块 vs. LPO 光模块对比表，我们可以一眼看清两者的核心差异：

对比维度	DSP 光模块	LPO 光模块 (Linear Pluggable Optics)
架构	内置 DSP 芯片，负责均衡、重定时、FEC、抖动补偿	无 DSP，采用线性驱动/探测，信号基本透明直通
延迟	高（几十 ns ~ 上百 ns，取决于DSP处理）	极低（基本只有光电转换延迟，<10 ns）
功耗	高（常见 5~10W+，随速率提升而增加）	低（可比 DSP 模块省 30~50% 功耗）
链路容错性	强，能适应劣质信号链路	弱，依赖主机/交换机的SerDes均衡能力
典型传输距离	中/长距（500m ~ 80km，不同速率和标准）	短距（机内/机架内，500m ~ 2km 常见）
互通性	好，跨厂商环境容易即插即用	一般，需要主机和模块高度匹配
典型应用	以太网长距链路（400G/800G ER/ZR）、城域网、互联机架	数据中心短距互连（机架内、PCIe over Fibre、CPO/LPO新方案）
优点	部署简单，容错强，适应环境广	延迟低，功耗低，适合大规模部署和低延迟应用
缺点	功耗大、延迟高	对主机要求高，生态尚不成熟

总结：

DSP 光模块 = “全功能、容错强、长距” → 更适合复杂环境和长距离链路。
LPO 光模块 = “低延迟、低功耗、依赖主机能力” → 更适合短距、延迟敏感（如 PCIe over Fibre、CXL、AI 集群机架内）应用。

那么，我们的演示视频中提到使用DSP技术会有几十纳秒~上百纳秒的延迟，为啥这么大？DSP主要厂家是Broadcom, Marvell，新兴的Credo，Alphawave这类公司也推出了这类DSP，未来市场还有机会吗？下面我们逐一拆解一下：

1. 为什么 DSP 光模块延迟能到几十 ns ~ 上百 ns？

DSP 光模块的延迟主要来自于 信号处理链路：

ADC/DAC 转换延迟：DSP 模块要把模拟的 PAM4 信号采样成数字码流（ADC），处理后再由 DAC 恢复为模拟波形。这一来一回本身就有几个 ns 的 pipeline。
前向纠错 (FEC)：为了降低误码率，DSP 会做编码/解码（如 RS-FEC）。虽然 PCIe Gen6/7 的 FEC 相对轻量，但以太网 400G/800G 模块的 FEC 往往要加 10–100ns 延迟。
均衡与重定时 (DFE/FFE, CDR)：DSP 内部需要运行复杂的滤波器和时钟恢复逻辑来补偿链路损伤。根据复杂度，延迟也在 10–50ns 量级。
Pipeline & Buffering：DSP 常有并行处理 pipeline（多级移位寄存器），如果需要小规模缓冲（比如对齐、交织），会进一步带来几十 ns 延迟。

所以常见 DSP 光模块总延迟会在 30–150ns 区间，而 LPO 由于没有 DSP，只是模拟驱动+光电转换，延迟通常 <10ns。

2. DSP 的主要厂商

Broadcom：长期在光模块 DSP 芯片市场占主导，尤其是 400G/800G PAM4 DSP。
Marvell：凭收购 Inphi 切入市场，Inphi 的 PAM DSP 产品线在 400G/800G/1.6T 是重要玩家。
Credo：新兴厂商，专注低功耗 DSP，同时推动 LPO/Linear驱动+AFE 方案，主打“节能替代”。
Alphawave Semi：原本做 SerDes IP，现在也推出面向光模块的 DSP 与 AFE 芯片，试图切入数据中心光互连市场。
其他：MaxLinear、Eoptolink 等也在部分速率段推出 DSP 或 AFE。

3. 新兴厂商的机会

尽管 Broadcom 和 Marvell 占据大部分出货量（尤其是 hyperscale 客户的主流 400G/800G 模块），但新兴厂商仍有机会：

功耗压力：大规模 AI 训练集群要求降低功耗，Credo、Alphawave 提供的 低功耗 DSP / LPO AFE 更有吸引力。
延迟敏感应用：如 PCIe/CXL over optics，不允许 DSP 引入的大延迟，新兴厂商提供的 Linear AFE（无FEC/DSP）更适配。
速率升级：从 112G → 224G → 448G 的过程中，新的 DSP 架构需要重新设计，老大厂的护城河相对变弱，新玩家有切入窗口。

一句话总结： DSP 光模块延迟几十到上百纳秒，主要源于 ADC/DAC、FEC、均衡/重定时处理。Broadcom 和 Marvell 仍是绝对主力，但随着 AI 集群的低延迟、低功耗需求，Credo、Alphawave 这类厂商正通过 LPO/低功耗DSP 找到切入机会。

查看全文

http://www.dtcms.com/a/427217.html