
一段话总结
该报告介绍了专为推理任务设计的大语言模型MiMo-7B,其在预训练阶段通过优化数据预处理、采用三阶段数据混合策略(处理约25万亿token)和引入MultiToken Prediction(MTP)目标提升推理潜力;后训练阶段构建13万可验证数学和编程问题数据集,结合测试难度驱动奖励机制和数据重采样策略进行强化学习(RL)。实验表明,MiMo-7B-Base超越同规模模型,MiMo-7B-RL在数学(AIME 2025得分55.4)和代码任务(LiveCodeBench v5得分57.8)上性能优于OpenAI o1-mini,模型 checkpoint 已开源。
思维导图