超越 DeepSeek-R1,英伟达新模型登顶
近日,英伟达发布全新开源模型系列 Llama-Nemotron,凭借卓越性能引发业界关注,有望重塑开源 AI 格局。
该系列在推理能力上超越 DeepSeek-R1,内存效率与吞吐量显著提升。其创新采用合成数据监督微调与强化学习训练,全方位增强模型推理能力。系列包含 LN-Nano8B、LN-Super49B 和 LN-Ultra253B 三个版本,适配不同场景与硬件。其中 LN-Ultra 尤为亮眼,可在单个 8xH100 节点高效运行,支持 128K 上下文长度,擅长处理长文本与复杂任务。
英伟达首次引入 “推理开关” 功能,用户通过 “detailed thinking on/off” 提示词,即可在日常对话与复杂推理模式间自由切换,满足多样化需求。模型构建历经神经架构搜索优化推理效率、知识蒸馏与预训练恢复性能、有监督微调提升多步骤推理能力等五个阶段。特别是在数学和 STEM 数据集的强化学习训练,让 LN-Ultra 在科学推理中脱颖而出。此外,Puzzle 框架能依硬件限制优化模型架构,提升计算性能。
Llama-Nemotron 系列在多方面的创新,为开源 AI 发展开辟新路径,将推动人工智能技术在更多领域实现突破。
各大科技公司你追我赶,竞争激烈,重视AI人才培养,现在正是学习AI的最佳时机。