当前位置：首页 > news >正文

百度文心 4.5 大模型详解：ERNIE 4.5 Technical Report

news 2025/7/6 15:25:42

TL;DR

2025 年百度发布的 ERNIE 4.5 系列模型，技术报告很有深度，开源的诚意应该已经达到 deepseekv3 水平。ERNIE 4.5 包括具有 47B 和 3B 活跃参数的混合专家（Mixture-of-Experts, MoE）模型，其中最大模型的总参数量达到了 424B，同时还包括一个 0.3B 的稠密模型。

Paper name

ERNIE 4.5 Technical Report

Paper Reading Note

Paper URL:

https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

Code URL:

https://github.com/PaddlePaddle/ERNIE?tab=readme-ov-file

Introduction

介绍了 ERNIE 4.5 —— 一个全新的大规模多模态模型家族，共包含 10 个不同的模型变体。该系列模型包括具有 47B 和 3B 活跃参数的混合专家（Mixture-of-Experts, MoE）模型，其中最大模型的总参数量达到了 424B，同时还包括一个 0.3B 的稠密模型。

一、背景与现有成果：

在文本理解与推理方面，多个模型已成为新的SOTA（State-of-the-Art）：

GPT-4.1 / GPT-4.5 / o3（OpenAI）
Qwen-3 / DeepSeek-V3 / DeepSeek-R1
Claude 4（Anthropic）
Gemini 2.5（DeepMind）
LLaMA-4（Meta）

在多模态理解方面，以下模型在图文任务中表现卓越：

GPT-4 系列（OpenAI）
Gemini 2.5、Gemma 3、Qwen2.5-VL 等

二、ERNIE 4.5 模型家族概览：

模型	是否多模态	是否 MoE	是否后训练	推理模式
ERNIE-4.5-300B	✗	✓	✓	非思维模式
ERNIE-4.5-21B	✗	✓	✓	非思维模式
ERNIE-4.5-0.3B	✗	✗	✓	非思维模式
ERNIE-4.5-VL-424B	✓	✓	✓	思维+非思维模式
ERNIE-4.5-VL-28B	✓	✓	✓	思维+非思维模式

除了 0.3B 稠密语言模型，其他均为 Mixture-of-Experts（MoE）架构。模型分为纯语言模型（LLM）和视觉语言模型（VLM），VLM 参数更多因为包含视觉专属专家。

三、关键创新点：

1. 多模态异构 MoE 预训练

使用异构 MoE 架构，支持模态间共享参数（如 self-attention 和专家模块），也支持每种模态的专属参数。
引入 模态隔离路由、路由正交损失 与 多模态 token 平衡损失，有效避免模态间相互干扰。
支持图像专家 + 文本专家联合训练，强化视觉理解的同时保持语言能力。

2. 高效可扩展的训练基础设施

提出 异构混合并行策略 + 层级负载均衡方案，提升训练效率。
支持：
- 节点内专家并行（intra-node expert parallelism）
- 内存高效的流水线调度
- FP8 混合精度训练
- 微粒度重计算
推理优化：
- 支持 BF16 / FP8 精度
- 提出无损低比特量化（4-bit/2-bit），可用 4×80GB 或 1×141GB GPU 进行推理
- 引入 Prefill-Decode 角色解耦 + 专家并行调度，在 H800 节点上达到 56k 输入 TPS 和 18k 输出 TPS

3. 模态专属的后训练策略

不同模型针对应用场景进行专门优化：
- LLM 侧重语言生成与理解
- VLM 支持图文推理、思维/非思维两种推理模式
后训练方法包括：
- SFT（监督微调）
- DPO（直接偏好优化）
- UPO（统一偏好优化，改进的 RL 方法）

2. ERNIE 4.5 的架构

总览

在这里插入图片描述

ERNIE 4.5 使用多模态 Transformer 架构，支持文本、图像、视频作为输入，统一输出为文本。其核心包括：

图像/视频编码器（支持变分辨率的 Vision Transformer）
Adapter 适配器（视觉特征映射到文本嵌入空间）
多模态位置编码（3D RoPE）
异构细粒度 MoE 架构（文本与视觉各有专属专家，部分专家共享）

2.1 异构 MoE（Heterogeneous Mixture-of-Experts）

架构设计：

三类专家：文本专家、视觉专家、共享专家。
所有 token 均经过共享专家和 attention 层处理；文本和视觉分别路由到各自的专家。
视觉专家的中间维度是文本专家的三分之一，FLOPs 减少约 66%。

路由策略创新：

模态隔离路由（Modality-Isolated Routing）：避免文本能力退化（防止路由崩溃问题）。
支持共享专家跨模态整合信息，但不会因路由干扰损害性能。
最后一层 Transformer 中不再包含视觉专家，以避免参数浪费。

图 2 展示了在保留数据集上，不同层中各专家的激活比例热力图。文本专家的激活分布较为集中，而视觉专家则表现出更为分散的激活模式。采用模态分离的 MoE 设计对于实现高效的多模态联合训练是必要的。在这里插入图片描述

工程优化：

定制的专家负载感知并行策略（解决视觉专家负载不均）。
优势：
- 模态统一建模（多模态参数可联合优化）
- 训练更稳定（视觉专家可后期加入，节省成本）
- 推理高效（文本推理时跳过视觉专家；推理管线可按模态拆分）

2.2 视觉编码器（Vision Encoder）

图像编码：

使用 自适应分辨率 ViT，高度和宽度分别对齐到 patch 尺寸的倍数，保留原始宽高比。
使用 2D RoPE（二维旋转位置编码）分开编码图像高宽位置信息。
应用 图像打包（Image Packing） 技术，将多张图像打包进同一 batch，提升计算效率。

视频编码：

引入 自适应视频采样策略：
- 动态调整帧数与分辨率以适应序列长度限制；
- 视频越长，帧越稀疏，视频越短，帧越密。
引入 时间戳渲染（Timestamp Rendering）：
- 将绝对时间直接渲染在每帧上（不增加 token），提升模型对时间的感知能力。

2.3 适配器模块（Adapter）

桥接视觉与语言特征，对视觉输出进行压缩后映射到语言嵌入空间。
包括两类压缩：
- 空间压缩：非重叠 2×2 patch，令 token 数减少 4 倍；
- 时间压缩：帧数减半。
使用 Pixel Shuffle 技术进行压缩。
静态图像被视为“双帧视频”，实现图像与视频的统一处理。

2.4 多模态位置编码（Multimodal Positional Embedding）

使用统一的 3D RoPE（三维旋转位置编码）：
- 时间轴（低频） + 空间轴（高宽交替编码）
- 文本仍使用标准 1D RoPE
优势：
- 融合视频的时序信息与图像空间信息
- 对长视频的建模表现出色，尤其在需要“序列外插（extrapolation）”场景中优势明显

总结：ERNIE 4.5 架构特点

模块	核心设计	优势
MoE	异构、模态隔离、专家共享	路由稳定、跨模态联动、节省计算
视觉编码器	自适应分辨率 + 时间戳渲染	还原原图比例、提升时间理解
Adapter	跨模态对齐 + 空间/时间压缩	token 减少，效率提升
3D RoPE	时间 + 空间 + 文本一致位置编码	支持长视频，多模态统一位置建模

3. 预训练

3.1 预训练数据构建

ERNIE 4.5 使用来自网页、论文、文档、图像、视频及多模态合成数据的大规模语料，经过严格的清洗流程，包括去重、去噪与无关信息剔除。核心步骤如下：

数据清洗与合成：结合启发式规则与模型评估，过滤低质量样本。为缓解高价值领域数据稀缺问题，引入自蒸馏、多模态转换等合成方式增强数据多样性。
数据分析与结构化：通过语言、知识、应用场景等维度建立“数据地图”，便于挖掘规律与优化混合策略。
人机协同迭代提升数据质量：设计包含核心数据筛选、候选模型评估与人工复查的闭环流程，持续提升文本、图像、视频数据的质量。

数据类型构建详情如下：

知识型数据：基于 DIKW 框架将语料划分为 5 级知识层次，并构建分类模型进行标注。对数学、事实、代码等领域使用“关键点生成法”进行高质量样本扩充。
交织文本-图像数据：从网页与视频中提取图文混排内容，结合 ASR 与关键帧提取，增强图文对齐，并清理低质量图像与乱码。
图文对：利用 CLIP 分数筛选图文相关性，去重后分类为自然场景、截图、图表等，并用 Recaption 提升对齐质量。还设计拼图+拼接标题方式增强模型对复合图像的理解能力。
垂直领域数据：包括工业、金融、医疗等，采用：
- 渐进式挖掘 + 条件预训练策略提升学习效率；
- 使用 ASR 转录音频（播客、视频等）内容并精炼，增强口语语料。

3.2 REEAO：比特级确定性数据管理器

大规模训练需应对节点故障、批次变化等问题。REEAO 基于五个原则（可复现性、高效性、弹性、自适应性、可观测性），将多模态数据切分为固定长度记录，确保：

在配置确定后，整个训练过程中生成的 token 序列完全比特级可复现；
动态调整节点、批大小或上下文长度时，数据不会重复或遗漏；
跟踪数据使用情况，实现精确的数据消费控制。

3.3 预训练策略（Recipe）

ERNIE 4.5 包含多种参数规模和注意力配置的 Transformer 模型，训练共分三阶段：
在这里插入图片描述

3.3.1 阶段一：仅文本预训练

短上下文（8k）：训练核心语言能力、事实知识与文本生成能力。
长上下文（最长128k）：逐步将 RoPE 频率基数 θ 从 10k 提升至 500k，训练适应长距离依赖，通过加权采样使模型充分接触长文档。

3.3.2 阶段二：仅视觉训练

使用小型语言模型辅助训练视觉编码器；
语言参数冻结，仅训练视觉适配器与专家模块（由文本专家结构剪枝而来）；
最后联合优化视觉路径，强化图文对齐，特别是高质量 caption 与 alt 文本。

3.3.3 阶段三：多模态联合训练

短上下文多模态：解冻全模型，在标准上下文长度下融合文本、图像、视频信息；
长上下文多模态：拓展至 128k 长度，使模型能应对长上下文多模态任务。

3.4 模型优化

多模态 MoE 模型面临负载不均与梯度不稳定等问题。除常规损失（辅助损失、z-loss）外，引入：

3.4.1 路由器正交化损失（Router Orthogonalization Loss）

Mixture-of-Experts（MoE）模型常常面临专家同质化问题，即多个专家学习到高度重叠或冗余的表示（DeepSeek-AI et al., 2024b）。为了解决这一问题，ERNIE 4.5 引入了路由器正交化损失，鼓励路由器中的专家权重向量之间保持正交，从而实现更均衡的专家分配与更强的专家专精能力。

该损失定义如下：

$L_{\text{orth}} = \sum_{i=1}^{k} \sum_{j=1}^{k} (\hat{w}_i^\top \hat{w}_j - \delta_{ij})^2$

其中， $\hat{w}_i = \frac{w_i}{\|w_i\|_2}$ 表示专家 $i$ 的单位化权重向量， $\delta_{ij}$ 是克罗内克 delta（当 $i = j$ 时为 1，否则为 0）。

此损失项的目标是促使不同专家的权重向量正交，从而让路由器分配更均衡、专家更加专一，同时提高模型在 OOD（分布外）任务中的泛化能力。

注意，该损失项仅依赖路由器权重，与权重衰减类似。但直接将其加入总损失中会干扰 Adam 优化器的梯度估计，影响训练稳定性。为此，作者采用类似 AdamW 的做法，修改 Adam 优化器，使得该损失能独立更新路由器权重，不干扰原有梯度。

在 ERNIE 4.5 中，该损失的权重系数设为 $\times 10^{-3}$ ，且不随学习率缩放。消融实验表明，引入该损失可在文本任务上带来 +1.44 的性能提升（以下实验用 3B/28B MoE 模型验证，权重设置为 0.01）。
在这里插入图片描述

3.4.2 Token 平衡损失（Token-Balanced Loss）

传统的交叉熵损失对每个样本中所有有效 token 的损失求平均。然而，在多模态训练中，只有文本 token 参与损失计算，且其比例在不同样本中差异较大，这会造成梯度方差过大，影响优化的稳定性和效率。

为此，作者提出了 Token-Balanced Loss，即按样本总长度归一化损失，缓解梯度不均问题，提升多模态训练的稳定性。

在多模态训练中，图像 token 和 prompt 位置通常被掩码（mask）掉，不参与损失计算。设第 $i$ 个样本中：

$U_i$ ：未被 mask 的区域（即文本 token）
$M_i$ ：被 mask 的区域

常规的交叉熵损失为：

$L^{(i)} = -\frac{1}{|U_i|} \sum_{j \in U_i} \log P(y_j^{(i)} | y_{<j}^{(i)}; \theta)$

这种方式会导致：文本 token 少的样本反而产生更大的梯度，对训练造成偏倚。

为解决此问题，Token-Balanced Loss 定义为：

$L_{\text{balanced}}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}$

其中 $\ell_j^{(i)} = -\log P(y_j^{(i)} | y_{<j}^{(i)}; \theta)$ 表示单个 token 的损失。

这种归一化方式确保每个样本的损失按其总序列长度加权，无论实际参与损失计算的 token 数量如何，都能在整体上保持训练平衡。

3.5 指数滑动平均（Exponential Moving Average）

除了损失函数设计外，另一个显著影响训练稳定性与最终性能的关键因素是参数平滑技术。其中，指数滑动平均（EMA） 在大规模预训练中被广泛采用，可有效稳定训练过程并提升模型泛化能力。

尽管 EMA 在经验上取得了成功，其衰减系数 α 的设置往往依赖于经验，缺乏理论指导，尤其是在大规模训练背景下。为更好理解 EMA 的作用，本文进行了理论分析，发现EMA 实质上等效于学习率衰减。这一视角合理解释了一个常见现象：应用 EMA 的模型，其效果常常接近于使用显式学习率衰减训练出的最终模型（DeepSeek-AI et al., 2024b；Li et al., 2025）。

基于这一发现，作者进一步探讨了EMA 衰减系数 α 与“有效衰减窗口”之间的关系，该窗口决定了最近的参数更新在 EMA 平滑中的影响程度。为此，本文提出了一个可控的衰减窗口框架，以优化模型性能。

通过“有效学习率衰减”分析 EMA

EMA 通过指数权重对参数更新进行加权，其行为类似于学习率衰减，能形成随训练进程单调递减的“有效学习率”。

设 $\delta_t = \theta_{t+1} - \theta_t$ 为第 $t$ 步的参数更新，则第 $n$ 步的 EMA 参数为：

$\theta^{\text{EMA}}_n = \theta_0 + \sum_{i=0}^{n-1} \eta^{(\alpha)}_i \cdot \delta_i$

其中，

$\eta^{(\alpha)}_i = 1 - \alpha^{n-i}$

表示第 $i$ 次更新对应的有效学习率。

与普通参数更新（对所有更新赋予等权）不同，EMA 会逐步减小对历史更新的权重。图 3 展示了 $\eta^{(\alpha)}_i$ 的衰减形状如何近似于显式学习率策略（如余弦衰减、warmup-stable 等），并指出α 越大，衰减越平滑，窗口越长。
在这里插入图片描述

这种视角提供了一种理论上选择 α 的方法：直接与期望的有效窗口长度挂钩，而非仅靠经验调整。

值得注意的是，虽然 EMA 在形式上类似学习率衰减，但二者并不完全等价：

显式学习率衰减会影响每一步的 $\delta_i$ ；
EMA 则是在参数更新后，对 $\delta_i$ 加权聚合。

但实验证明：在预训练中，持续使用 EMA 的效果可媲美显式学习率衰减。因此，作者提出 “只用 EMA，不再衰减”的策略（decay no more） ，即完全以 EMA 替代传统的多轮学习率衰减。

控制 EMA 的“有效衰减窗口”

除了控制衰减行为，EMA 的 α 也决定了一个有效衰减窗口：即 EMA 平滑过程中仍对模型有显著影响的最近更新范围。

为精确控制该窗口，作者引入阈值 ε ∈ (0, 1)，如 ε = 0.001。若某次更新 $\delta_i$ 的有效权重 $\eta^{(\alpha)}_i ≥ 1 - ε$ ，说明它几乎不受 EMA 影响；若小于此值，则认为该更新处于衰减窗口内。

两者的关系由下式描述：

$\hat{\alpha} = \exp \left( \frac{1}{\hat{W}} \log \epsilon \right)$

其中：

$\hat{W}$ ：目标衰减窗口长度；
$\hat{\alpha}$ ：对应的 EMA 衰减系数。

在实际操作中，EMA 通常每隔 $s$ 步更新一次（称为 EMA 间隔），则总的 EMA 衰减窗口为：

$\hat{W} \cdot s$

受显式学习率衰减中总衰减步数设定启发，作者将 $T$ 设置为训练总步数的 1/10。

初步实验还发现：更高的 EMA 更新频率有助于性能提升。因此在预训练阶段，作者设置 $s = 4$ ，并依据上式确定 $\alpha$ 。

异步在线 EMA 机制

为支持高频率 EMA 而不影响训练效率，作者设计了一个异步在线 EMA 系统：

将 GPU 参数直接拷贝到主机内存；
由独立 CPU 线程异步执行 EMA 累积并定期写入 checkpoint；
训练主循环不中断。

该机制允许极高频率的 EMA 操作，相关代码已在 PaddleNLP 开源，以支持社区复现与进一步研究。

4 后训练阶段

ERNIE 4.5 模型在多模态预训练完成后，支持将文本和视觉组件彻底分离。通过移除多模态专家、视觉编码器和适配器层，可将模型简化为纯语言模型，以提升在纯文本场景下的效率。在此基础上，我们对文本相关参数进行了后训练，得到专用于文本任务的 ERNIE 4.5，同时对完整参数集（包括文本和视觉组件）进一步微调，得到多模态模型 ERNIE-4.5-VL。

4.1 大语言模型（LLMs）后训练

在这里插入图片描述

如图4所示，整个后训练流程包括：

监督微调（SFT）：见第 4.1.1 节；
强化学习（RL）：利用统一奖励机制进一步提升模型性能，详见第 4.1.2 和 4.1.3 节。

4.1.1 监督微调（SFT）

我们构建了一个系统化的监督数据分类体系，将 SFT 数据分为 10 个主题领域，包括：

科学与数学
编程
逻辑推理
信息处理
创意写作
多语言能力
知识问答
多轮对话与角色扮演
安全性相关内容

此外，SFT 数据还被划分为“推理类任务”和“非推理类任务”。推理任务通常需要链式思维（CoT），而非推理任务则要求简洁准确。

我们特别在部分推理任务中加入多种推理方式的多样回答，以提升模型基础能力和 RL 中的探索能力。最终构建了一个包含 230 万样本的 SFT 数据集，并进行了平均两轮训练。

4.1.2 统一奖励机制（Unified Rewarding System）

我们设计了一个支持推理与非推理任务的统一奖励系统：

推理任务奖励机制：
- 基于规则的验证器
- 参考答案引导的大模型评审器（RLLM）
- 沙箱环境（Sandbox）：用于安全评估程序功能正确性
- 参考引导的判别奖励模型（RDRM）：评估模型输出是否接近参考答案
非推理任务奖励机制：
- 清单验证器（Checklist-aware Verifiers）
- 生成式奖励模型（GRM）：提供多维度动态反馈
- 判别式奖励模型（DRM）：用于偏好学习和强化学习指导

统一奖励机制为模型提供明确的人类偏好信号，有助于训练出更符合人类价值观的响应。

4.1.3 强化学习（RL）

我们采用 Proximal Policy Optimization (PPO) 框架，并引入以下关键技术：

渐进式强化学习（PRL）：三阶段训练流程
1. 逻辑推理语料
2. 数学与编程语料
3. 通用数据集（涵盖推理与非推理任务）
统一偏好优化（UPO）：
- 将 Direct Preference Optimization (DPO) 损失整合进 PPO；
- 在线 UPO：每轮生成多个回答后进行拒绝采样；
- 离线 UPO：预先构建偏好对

此外，为稳定训练并优化表现，我们：

去除准确率为 1 或 0 的 prompt；
过滤 reward 方差小的 prompt；
将不同主题领域的 reward 信号分组、标准化，以缓解不同来源异质性。

4.2 多模态语言模型（VLMs）后训练

在这里插入图片描述
如图 5 所示，VLM 后训练包括三轮 SFT 和一轮推理型 RL：

4.2.1 监督微调（SFT）

为提升图像理解与推理能力，我们：

合成结构清晰的视觉感知数据，包括拼图题、几何图形、函数图；
从真实 STEM 图像中精细生成说明性 caption，并确保：
- 不能通过图中文字直接解题；
- 文本-only 模型可在无图条件下正确回答；
- 用于验证回答一致性，确保 hallucination 抑制

联合推理与非推理训练采用：

联合训练：将非推理数据在回答前添加 <think>\n\n</think> 标签，训练时不参与梯度更新；
专家合并（Experts Merging）：将非推理模型的多模态专家迁移至推理模型，实现推理与非推理统一，性能超过原基线。

4.2.2 基于验证奖励的强化学习（RLVR）

我们在视觉 STEM、视觉谜题、UI2Code 等任务中引入可验证奖励（verifiable rewards）：

视觉 STEM：收集并转化为开放式问题，剔除模型容易回答或难以提升的问题；
视觉谜题：使用两个 LLM 进行双重验证，分别检查内部一致性与最终答案；
UI2Code / Image2Struct：利用渲染后的 UI 图像对比生成 HTML 页面评估其视觉保真度

最终，我们设计了融合 RLVR 与 RLHF 的 混合强化学习机制，采用：

Bradley-Terry 奖励建模目标
改进版 GRPO 算法（融合了 DAPO 中的动态采样与超长过滤策略）

这一框架确保训练稳定性并提高模型的推理与通用能力。

5 训练框架

ERNIE 4.5 的训练基于 PaddlePaddle 框架（Ma et al., 2019）。由于多模态模型的异构性与大规模 MoE 架构的复杂性，大规模分布式训练面临系统性挑战。我们提出了优化的训练框架，关键创新包括：

5.1 异构并行（Heterogeneous Parallelism）

5.1.1 异构并行架构

在这里插入图片描述

ERNIE 4.5 支持统一处理文本、图像与视频输入。以 ERNIE-4.5-VL-424B-A47B-Base 为例：

ViT 编码器：6.3 亿参数
MoE 主干网络：总参数 4240 亿，每次激活 470 亿

我们提出的并行策略：

ViT 编码器复制于所有设备，采用数据并行；
MoE 主干采用 EP（专家并行）、PP（流水线并行）和 DP（数据并行）；
推理时 ViT 前向输出传递到 MoE 第一阶段；
自定义反向传播机制：在 MoE 主干反向传播完成后，将视觉特征的梯度分发回各 ViT 编码器；
ViT 参数更新使用 All-Reduce 同步；
ViT 可选重计算以节省内存。

在这里插入图片描述

5.1.2 分层负载均衡策略

在这里插入图片描述

ERNIE 4.5 支持变分辨率输入。由于图像/视频帧尺寸差异大，训练过程中 token 数量高度不均衡。我们提出两级负载均衡：

一级（粗粒度）：将所有 packed sequences 按 token 数排序后使用 round-robin 分配，平衡总体 token 数；
二级（细粒度）：
- Attention 外部算子：采用“Packed Sequence 并行”（PSP），按序列长度均分；
- Attention 内部算子：执行 All-to-All 通信交换序列长度和注意力头维度，确保正确计算后恢复 PSP。

结果：多模态训练吞吐性能提升最高达 32%。

5.2 MoE 主干的混合并行

5.2.1 节点内专家并行（Intra-Node EP）

在这里插入图片描述

所有专家通信仅限节点内，避免跨节点 All-to-All；
使用 NCCL 实现 All-to-All；
优化：将 gating 概率乘法操作移入专家计算模块内部，通过这种结构上的调整，在消费完张量后，即可立即释放第二次 all-to-all 的输出张量，减少内存压力；
降低重计算需求，保持端到端吞吐性能。

5.2.2 高效流水线调度

使用 Virtual Pipeline Parallelism (VPP) 缓解 pipeline bubble；
提出“内存优化型 VPP 策略”：
- loss 计算完成后立即开始反向传播并释放激活；
- 限制最后阶段激活内存只保留一个 VPP chunk；
- 引入参数梯度释放策略，在每轮结束时释放梯度内存。

5.3 FP8 混合精度训练

在这里插入图片描述

使用 E4M3 格式（相比 BF16 降低一半位宽）：
- 权重采用 block-wise 量化
- 激活采用 tile-wise 量化
优化措施：
- 上线性层（up-gate）：保留 FP8 激活，后向时动态反量化→转置→再量化，节省通信；
- 下线性层（down）：通过轻量重计算或缓存 BF16 激活节省内存；
算子融合优化：
- 前向融合：permute + FP8 quantize
- 前/后向融合：SwiGLU + 门控概率乘法 + FP8 quantize
通信优化：
- 第一轮 All-to-All 用 FP8 精度执行；
- 第二轮 All-to-All 与权重梯度计算并行。

5.4 计算优化

5.4.1 更优重计算策略

常规：以模块级重计算为主；
ERNIE 4.5：采用更细粒度的算子级重计算；
- 只保留最小必要张量，例如输出而非中间变量；
- 提供更好的算力-内存权衡；
- 分析每个算子的重计算收益，制定最优 checkpoint 策略。

5.4.2 FlashMask：灵活注意力机制支持

将注意力掩码从 O(N²) 降至 O(N)；
用于多模态预训练、SFT、DPO 和 RL 中的长上下文处理；
显著降低注意力内存开销，提高吞吐。

5.5 框架原生容错系统

在这里插入图片描述

我们提出了与 PaddlePaddle 深度融合的容错机制：

组件一：TraceHang

检测“假死”状态；
分析通信/并行日志，定位通信阻塞源；
快速恢复训练流程。

组件二：Online SDC Scanner

在线检测 Silent Data Corruption（SDC）；
利用 pipeline bubble 时间验证固定输入输出结果；
成功识别多个 SDC 节点，无影响训练效率。

组件三：并行热启动（Parallelized Warmup）

模拟 pipeline chunk 在所有 stage 上并行热启动；
将首次训练延迟降低至原始的 1/p。

组件四：Zero Cost Checkpoint（ZCC）

每步训练都可 checkpoint，且无吞吐损失；
利用 PCIe 非冲突阶段（非通信操作）完成数据拷贝；
故障时：
- 若内存仍可访问，使用 RDMA + 全 NIC 实现热节点恢复；
- 否则回退至持久化存储；
全自动恢复时间缩短至 8 分钟内；
可支持 10,000 GPU 集群下 >98% 有效训练时间。

6 推理与部署（Inference and Deployment）

ERNIE 4.5 系列包含多种参数规模的 MoE 与稠密模型，适用于不同部署场景。即使是最大模型也因参数压缩而具备高效部署能力。我们提供多种量化方案（FP8、INT8、INT4 乃至 2-bit 权重量化），以适配不同硬件平台。

例如，ERNIE-4.5-A47B 可使用 8-bit 部署在 8 张 GPU 上，或用 4-bit 部署在 4 张 GPU 上。我们还支持基于大规模 Expert 并行的“Prefill-Decode 解耦”部署方式。

6.1 量化（Quantization）

我们提供 BF16、FP8 推理支持，同时也推出多种低精度推理策略，确保在精度几乎无损的前提下降低延迟、减少内存。

6.1.1 W4A8 量化（INT4 weights + INT8 activations）

针对 ERNIE-4.5-300B-A47B 模型，专家权重占比超过 90%，推理耗时中的 prefill 占约 40%，decode 占约 60%。

设计方案：
- 专家权重使用通道级静态 INT4 量化；
- 激活使用张量级静态 INT8；
难点与对策：
- GPTQ 在 MoE 上慢（需激活所有专家+千级线性层）；
- Tensor Parallel 场景下，全局 outlier 分布带来误差；
- SmoothQuant 与 AWQ 等方法易将 outlier 在权重/激活间转移而非消除。

提出的方案：
在这里插入图片描述

MEPC（多专家并行协同量化）：
- prefill 期间激活尽可能多的专家；
- 对未激活专家共享激活专家的均值量化参数；
- 结合 GPTQ 对专家权重进行拼接并行量化；
- 对热点专家使用精细化 GPTQ（特别是 Up-Gate Linear）；
跨 GPU 节点的 Outlier 转移算法：
- 将 outlier 汇总至单卡，其余卡处理常规值；
- 类似 RPTQ：全局收集通道最大值，对权重/激活布局重排，实现量化友好；
Layer-Adaptive Permutation Rotation：
- 采用块级旋转（rotation）与乱序（permutation）处理分布密集的 outlier；
- 有效提升 INT8 静态量化在硬件上的兼容性与精度。

实验结果表明，各类任务精度几乎无损（如推理类 +0.11%，代码类 -1.10%）。

6.1.2 2-bit 权重量化

我们实现了近乎无损的 2-bit 权重量化，模型尺寸相较 BF16 减少 80%，如 300B 模型可部署于 141GB 的 H20 上。

提出 Convolutional Code Quantization (CCQ, 卷积码量化) 算法：
- 结合向量量化高精度与标量量化低复杂度；
- 基于卷积码设计无查找的映射方式（线性码本）；
- 支持编码压缩为等效 2bit（使用 INT8/INT16 存储）；
- 使用通道分布聚类进一步压缩；

6.1.3 KV 缓存与 Attention 静态量化

在这里插入图片描述

为支持大 batch / 长上下文，我们优化 Attention 和 KV Cache 的内存与计算成本。

策略概述：
- 支持头级、通道级量化；
- 精度支持 FP8、INT8、INT4；
- 使用 SFT 阶段样本集预生成量化 scale（无需推理阶段收集）；
- 使用轻量级阻塞型 Hadamard 变换（Blocked RHT）抑制 outlier；
- 降 FP8 表示范围（例如 E4M3 的最大值 ±448），如下式裁剪：
  
  $x_{\text{quantized}} = \text{clip}(x_{\text{BF16}} \times \text{scale}_{\text{FP8max}}, -448, 448) \quad \text{(公式6)}$

6.2 推理加速（Inference Acceleration）

我们协同量化策略和硬件架构，开发高效推理核。

6.2.1 W4A8 GEMM 加速

INT4 → INT8 映射：
- 原始范围 [-8, 7] → 限制为 [-7, 7]；
- 左移 4 位映射为 INT8；
- 预打包布局：采用交错格式，每 8 个 INT8 元素用 3 条指令实现（LOP3 + shift）；
CUTLASS 实现：
- 使用 Tensor Core 做矩阵乘加，Epilogue 端做解量化；
- 吞吐率达 decoder 类任务 70~80%，encoder 任务比 W4A16 提升 100%+；
- 权重通道级量化，激活支持 token/expert 灵活粒度；
- MAC 使用 INT32 保精度。

6.2.2 高效 Attention 核

INT8 Softmax 近似：

利用快速指数逼近：

$e^x \approx \text{Float}(2^{23} \times \lfloor \text{scale} \cdot x + \text{bias} \rfloor) \quad \text{(公式7)}$

与 INT8 解量化系数合并为：

$e^x \cdot S_{qk} \approx \text{Float}(\lfloor 2^{23} \cdot \text{scale} \cdot S_{qk} \rfloor \cdot x + \lfloor 2^{23} \cdot \text{bias} \rfloor) \quad \text{(公式8)}$
FP8 Softmax 加速：
- UINT4 → FP8E4M3 转换：
  
  $2^{-9} \cdot X \quad (X \text{ 为 UINT4，Y 为 FP8E4M3}) \quad \text{(公式9)}$
- Fast Dequant：
  
  $\text{softmax}\left( \frac{Q \cdot (K^T - Z_k) \cdot S_{qk}}{\sqrt{d_k}} \right) = \text{softmax}\left( \frac{(Q \cdot S_{qk}) \cdot K^T}{\sqrt{d_k}} \right) \quad \text{(公式10, 11)}$
- 对 V 的解量化：
  
  $\cdot V \cdot S_v - P \cdot Z_v \cdot S_v \quad \text{(公式12)}$
- 转置优化：
  
  $\cdot Q^T)^T, \quad O = (V^T \cdot P^T)^T \quad \text{(公式13)}$
提升带宽利用率至 >80%，prefill 阶段较 FlashAttention-3 提升 50%。

6.2.3 预测解码（Speculative Decoding）

ERNIE 4.5 集成 Multi-Token Prediction (MTP) 模块；
设计统一的预测解码框架，支持并行候选采样与校验；
相比自回归解码，输出吞吐提升 60%，TPOT 无明显变化。

6.3 部署优化（Deployment）

PD 解耦部署（Prefill-Decode Disaggregation）

Prefill 阶段使用 EP8（不采用 TP），Decode 阶段支持 EP8~EP64；
Prefill 使用 FP8，Decode 使用 W4A8；

三大系统关键指标：

KV Cache 跨节点传输：
- 基于 RDMA 实现；
- 优化 CQE 数量、PCIe ordering、支持 NVLink+RDMA 路由；
All-to-All 通信优化：
- 节点内使用 NVLink P2P copy；
- EP8 解码吞吐较 EP16 提升 70%；
多层负载均衡：
- 数据并行调度：考虑 KV Cache 命中率 + token 数；
- 专家并行调度：结合 DeepSeek 动态专家冗余 + 灰度迁移避免惊群问题；
- PD 解耦负载平衡：支持 decode 实例根据短输入临时承担 prefill；

部署效果：

ERNIE-4.5-300B-A47B：
- 2k 输入 + 400 输出，H800 单节点支持：
  - 输入 56k TPS，输出 18k TPS；
  - 满足 50ms TPOT；
单节点支持（4×A800/H800 用 4bit，1×H20 用 2bit）；
支持部署于多平台（NVIDIA GPU、昆仑芯 XPU、Hygon DCU、昇腾 NPU 等）。

7 开源开发工具（Open-Source Development Tools）

我们基于 PaddlePaddle 框架开源了 ERNIEKit 和 FastDeploy 两个工具，以支持 ERNIE 4.5 的模型训练与部署。这些工具具备工业级能力、资源高效的训练与推理流程，并支持多种硬件平台。

7.1 ERNIEKit

ERNIEKit 是为 ERNIE 4.5 量身打造的工业级开发工具包，支持模型训练与压缩，功能包括：

预训练
监督微调（SFT）
低秩适配（LoRA）
直接偏好优化（DPO）
量化感知训练（QAT）
后训练量化（PTQ）

为帮助开发者充分发挥 ERNIE 4.5 能力，ERNIEKit 引入了以下技术创新：

工业级高性能预训练支持

支持 ERNIE 4.5 最大模型的高性能预训练实现，包括混合并行训练策略与 FP8 混合精度优化。

低比特量化感知微调（Low-Bit QAT）

为显著降低微调与部署资源，我们提出新型 FP8-QAT 方案，结合低精度训练与优化器卸载，使得模型质量可媲美 BF16 微调（SFT）模型。

将 ERNIE 4.5 最大模型从 96 卡 GPU 微调降低至 16 卡 GPU；
与预训练所需的动态（block/tile 级）FP8 不同，FP8-QAT 支持 离线 tensor 级静态量化，消除推理阶段量化开销。

可视化训练与推理界面

集成基于 Gradio 的 WebUI，无需编程即可进行微调、对齐与推理，开箱即用。

7.2 FastDeploy

FastDeploy 是面向大语言模型与视觉语言模型的推理部署工具包，设计简洁，开箱即用，并兼容 vLLM 接口。我们为企业与个人开发者引入以下技术特性：

PD 解耦部署与多级负载均衡

开源工业级 Prefill-Decode 解耦部署方案，支持上下文缓存；
针对 ERNIE 4.5 架构特点优化 NVIDIA GPU 分布式推理；
统一 KV Cache 传输设计自动选择 NVLink 或 RDMA；
多机部署下实例根据负载自动在 prefill 与 decode 之间切换，提升吞吐性能。

全面低比特量化推理支持

FastDeploy 支持多种量化精度组合，如：

W8A8、W8A16
W4A8、W4A16
W2A16 等

支持数据类型包括 INT4、INT8、FP8、BF16。

特别地，我们提供内置的 2-bit 权重量化模型，大幅降低 ERNIE 4.5 的部署资源需求：

性能接近 FP8（多项基准测试下几乎无损）；
可在单张 141GB NVIDIA H20 GPU 上运行。

多硬件平台支持

得益于 PaddlePaddle 的多硬件适配能力，ERNIE 4.5 除了支持 NVIDIA GPU 外，还支持在以下芯片上进行推理部署：

昆仑芯 XPU
海光 DCU
华为昇腾 NPU
以及更多平台

8 评估与结果（Evaluation and Results）

为全面展示 ERNIE 4.5 的能力，我们在多种文本与视觉基准上进行了系统评估，并在本章的 8.1 和 8.2 节分别对语言模型与多模态模型的表现进行了对比分析。

8.1 语言模型评估

8.1.1 预训练语言模型评估结果

我们将 ERNIE-4.5-Base 与当前 SOTA 模型（如 DeepSeek-V3-Base 和 Qwen3-30B-A3B-Base）进行系统评估，覆盖五大核心能力：

通用任务：C-Eval、CMMLU、MMCU、AGIEval、MMLU、MMLU-Redux、MMLU-Pro；
事实知识：SimpleQA、ChineseSimpleQA；
推理能力：BBH、DROP、ARC、HellaSwag、PIQA、WinoGrande、CLUEWSC；
代码生成与理解：EvalPlus、MultiPL-E；
数学推理：GSM8K、MATH、CM17K。

在这里插入图片描述

关键结果如下：

ERNIE-4.5-300B-A47B-Base：
- 在 28 个基准中超越 DeepSeek-V3-671B-A37B-Base 的有 22 个；
- 在中文任务（CMMLU、ChineseSimpleQA）表现尤为出色；
- 得益于高质量中文语料与合成数据，在 QA 和复杂语言场景中表现强劲。
ERNIE-4.5-21B-A3B-Base：
- 参数量仅为 Qwen3-30B 的 70%，但在 BBH 和 CMATH 等数学与推理任务上超越对方；
- 体现出较高的参数效率与优异的性能-模型体积权衡。