当前位置：首页 > news >正文

华为盘古 Ultra-MoE-718B-V1.1 正式开放下载！

news 2025/10/16 7:06:21

👉模型地址：https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1

👉Int8量化版本也同步开源：https://gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8

还记得9月底刷屏的「华为盘古718B」吗？当时凭借不堆数据、专注思考的训练哲学，在 SuperCLUE 榜单中一举冲至开源模型第三，成为业界焦点。

今天，openPangu-Ultra-MoE-718B-V1.1 正式在 GitCode 平台开源，模型权重与技术细节全面公开！

openPangu-Ultra-MoE-718B-V1.1 是基于昇腾 NPU 训练的大规模混合专家（MoE）语言模型，总参数规模达 718B，激活参数量为 39B。该模型在同一架构下融合了“快思考”与“慢思考”两种能力，实现更高效、更智能的推理与决策。

相比上一版本 openPangu-Ultra-MoE-718B-V1.0，V1.1 在 Agent 工具调用能力上显著增强，幻觉率进一步降低，模型的综合表现与稳定性也全面提升。

🤖 模型架构：更稳训练，更优均衡

openPangu-Ultra-MoE-718B-V1.1 采用业界先进的 Multi-head Latent Attention (MLA)、Multi-Token Prediction (MTP) 以及 高稀疏比混合专家架构，并在此基础上引入多项创新设计，以实现更优的性能与训练效率：

• Depth-Scaled Sandwich-Norm 与 TinyInit： 通过改进层归一化结构和参数初始化方式，显著提升模型训练的稳定性与收敛速度。
• 基于 EP-Group 的负载均衡策略： 优化负载均衡损失函数，有效增强专家路由的分布均衡性，提升专家特化与协同能力。

🔥 核心亮点：更强能力，更低幻觉

本次开源的 V1.1 版本在多个关键维度实现显著提升：

• 综合能力优化： 在 MMLU-Pro、GPQA 等高难度测评中，快慢思考双模式成绩全面超越 V1.0；
• 幻觉率大幅降低： 通过“批判内化”机制，幻觉率从 V1.0 的 10.11% 降至 3.85% （快思考模式）；
• 工具调用能力增强： 升级 ToolACE 框架，在 Tau-Bench 等多工具协同任务中表现亮眼；
• 首推 Int8 量化版本： 显存占用减少约一半，吞吐提升 20%，精度损失不足 1%。

测评结果一览：

测评集	测评指标	V1.0 快思考	V1.0 慢思考	V1.1 快思考	V1.1 慢思考
通用能力
MMLU-Pro	Exact Match	80.18	82.40	83.17	84.84
GPQA-Diamond	Avg@4	69.19	76.77	76.60	77.95
SuperGPQA	Acc	52.28	61.67	58.59	63.65
IF-Eval	Prompt Strict	81.70	80.59	86.88	81.33
SysBench	Constraint Satisfaction Rate	85.99	91.43	87.33	91.87
Hallucination-Leaderboard (HHEM)	Hallucination Rate	10.11	18.39	3.85	3.01
数学能力
CNMO 2024	Avg@32	65.62	80.73	76.56	82.99
AIME25	Avg@16	40.62	75.21	49.79	77.50
AIME24	Avg@16	56.25	80.21	66.04	82.08
代码能力
LiveCodeBench	Avg@3 (01/25~05/25)	45.14	61.14	36.57	65.71
Agent工具调用
BFCL-V3	Acc (Prompt)	72.32	56.97	69.81	72.36
Tau-Bench (airline)	Avg@3 (FC)	41.33	40.00	44.67	54.67
Tau-Bench (retail)	Avg@3 (FC)	68.98	52.75	66.66	74.20
Tau2-Bench (airline)	Avg@3 (FC)	47.33	52.00	61.33	66.00
Tau2-Bench (retail)	Avg@3 (FC)	74.85	67.25	72.22	79.24
Tau2-Bench (telecom)	Avg@3 (FC)	65.21	59.94	51.17	62.28
AceBench	Acc (Prompt)	79.36	80.93	78.63	81.32

注：评测过程中，system prompt 为空, V1.1较V1.0的提升项加粗。

模型交互演示：

蓝色小球弹跳动画

地心视角太阳系运行图

🏆 成绩说话：SuperCLUE 开源第三

在 9 月最新 SuperCLUE 榜单中，openPangu-718B 稳居开源模型总榜第三，在数学推理、科学推理、代码生成等六大核心维度均表现优异。

尤其值得关注的是，其幻觉控制项得分高达 81.28，甚至超过部分闭源巨头，凸显出其在输出可靠性上的技术优势。

🛠 技术突破：如何实现“小而精”的训练？

与单纯追求数据量的思路不同，openPangu 团队坚持三大技术路径：

1. 三阶段预训练： 通用→推理→退火，逐步构建知识体系与逻辑链条；
2. 批判内化机制： 让模型学会自我审视推理过程，从源头减少幻觉；
3. 动态微调策略： 通过渐进式优化与模型融合，平衡拟合与泛化能力。

📦 开源信息：一键获取，快速部署

模型地址：https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1
Int8 量化版本也同步开源：https://gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8
硬件要求： Atlas 800T A2 (64GB, >=32卡)，支持裸机或 Docker 部署
特色功能： 通过 /no_think 标记切换快慢思考模式，支持多轮工具调用