当前位置: 首页 > news >正文

小米MiMo-7B大模型:解锁推理潜力的新传奇!

在大语言模型(LLMs)蓬勃发展的时代,推理能力成为衡量模型优劣的关键指标。今天为大家解读的这篇论文,介绍了小米的MiMo-7B模型,它通过独特的预训练和后训练优化,展现出强大的推理实力,快来一探究竟吧!

论文标题
MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
来源
https://github.com/xiaomimimo/MiMo

文章核心

研究背景

当前,具有先进推理能力的大语言模型不断涌现,如OpenAI o系列、DeepSeek R1和Claude 3.7等,在复杂任务中表现出色。但大多数成功的强化学习工作依赖较大的基础模型,且在小模型中同时提升数学和代码能力颇具挑战。

研究问题

  1. 如何在预训练阶段提高数据质量和多样性,增强小模型的推理潜力

  2. 后训练中,怎样设计有效的奖励机制和数据处理策略,解决稀疏奖励和采样效率问题,提升模型性能

  3. 如何构建高效的强化学习基础设施,减少训练时间和资源浪费,提高训练效率?

主要贡献

1. 强化预训练:优化数据预处理流程,采用多阶段数据混合策略,引入MultiToken Prediction(MTP)目标,增强模型推理潜力,使MiMo-7B-Base在与其他同规模开源模型对比中表现卓越。

2. 创新后训练:精心整理高质量的数学和代码问题作为强化学习数据,设计测试难度驱动的奖励机制缓解稀疏奖励问题,实施数据重采样策略稳定训练,有效提升模型在数学和代码推理任务中的性能。

3. 优化基础设施:开发Seamless Rollout Engine加速强化学习训练和验证,增强vLLM推理引擎的鲁棒性并支持MTP,显著提高训练效率,减少GPU空闲时间。

4. 模型性能卓越:MiMo-7B-RL在数学、代码和一般推理任务上表现优异,在AIME 2025上得分55.4,超过OpenAI o1-mini,在算法代码生成任务中也大幅领先。同时开源模型,为研究社区提供有价值的参考。

方法论精要

1. 核心算法/框架:模型采用通用的解码器仅Transformer架构,包含Grouped-Query Attention(GQA)、pre-RMSNorm、SwiGLU激活和Rotary Positional Embedding(RoPE)等组件,模型使用MTP(multi-token prediction)结构。后训练采用改进的Group Relative Policy Optimization(GRPO)算法。

2. 关键参数设计原理预训练时,设置Transformer层数为36,隐藏层维度为4096等参数。使用AdamW优化器,设置不同阶段的学习率、批量大小等参数。后训练中,调整改进GRPO算法的超参数,如训练批量大小为512,演员小批量大小为32,学习率为1e-6等。

3. 创新性技术组合:预训练阶段,结合优化的文本提取工具、数据去重和过滤技术,以及多策略生成的合成推理数据。后训练中,将测试难度驱动的奖励机制数据重采样策略相结合,同时优化强化学习基础设施,构建Seamless Rollout Engine加速强化学习效率。

4. 实验验证方式:使用多种基准测试评估模型,包括自然语言理解、科学问答、阅读理解、数学推理、编码等任务的相关数据集。对比基线选择其他开源的同规模模型以及一些先进的推理模型,如Llama-3.1-8B、Gemini-2-9B、OpenAI o1-mini等,通过对比评估模型性能。

实验洞察

1. 性能优势:在数学推理任务中,MiMo-7B-RL在AIME 2024上得分68.2,AIME 2025上得分55.4,超越OpenAI o1-mini等模型。在代码推理任务中,LiveCodeBench v5上得分57.8,LiveCodeBench v6上得分49.3,大幅领先部分对比模型。在一般推理任务中,在多个基准测试中也展现出较强的性能。

2. 效率突破:Seamless Rollout Engine使训练速度提升2.29倍,验证速度提升1.96倍,有效减少GPU空闲时间,提高了训练和验证效率。通过优化vLLM推理引擎并支持MTP,提升了推理速度,如MTP层在AIME24基准测试中,第一层接受率约90%,第三层也保持在75%以上,加速了解码速度。

3. 消融研究:研究发现从MiMo-7B-Base直接进行强化学习(RL)训练,模型在早期主要学习适应答案提取格式。“轻量级”SFT帮助模型对齐答案格式的尝试效果不佳,MiMo-7B-RL-LiteSFT模型在推理潜力和最终性能上均落后。此外,在RL训练后期,平衡数学和代码任务的性能存在挑战,且语言混合问题难以通过简单的惩罚函数解决。

相关文章:

  • 安凯微以创新之芯,赋能万物智能互联新时代
  • 住宅代理与数据中心代理有什么区别
  • 正点原子STM32H743单片机实现ADC多通道检测
  • 0.安装两个版本的JDK8和JDK17并配置环境变量
  • StreamingLLM:让LLM拥有无限长生成能力
  • dubbo泛化调用时transient字段失效问题
  • Queue系列之SynchronousQueue源码分析:原理剖析与实战对比
  • 【默子速报】DeepSeek新模型 Prover-V2 报告解读
  • 从Oculus到Meta:Facebook实现元宇宙的硬件策略
  • 二、OrcaSlicer用户预设
  • 电容的作用
  • 对js的Date二次封装,继承了原Date的所有方法,增加了自己扩展的方法,可以实现任意时间往前往后推算多少小时、多少天、多少周、多少月;
  • 使用atomic实现无锁方式的全局变量访问
  • 借助电商 API 接口实现电商平台商品数据分析的详细步骤分享
  • Python第四周作业
  • 力扣-数组-238 除自身以外数组的乘积
  • tbb parallel_for 使用教程2之 tbb::blocked_range
  • 【Android】Android签名解析
  • javascript 深拷贝和浅拷贝的区别及具体实现方案
  • 双指针(4)——盛水最多的容器
  • 铁路12306回应“五一前大量放票”传闻:个别方向和区段出现新增票额,均即时进入系统重新发售
  • 两部门发布“五一”假期全国森林草原火险形势预测
  • 科学家为AI模型设置“防火墙”,以防止被不法分子滥用
  • 辽宁省委书记、省长连夜赶赴辽阳市白塔区火灾事故现场,指导善后处置工作
  • 打造沪派水乡的“湿意”,上海正在保护营造一批湿地空间
  • 杨国荣︱学术上的立此存照——《故旧往事,欲说还休》读后