当前位置：首页 > news >正文

MiMo-7B-RL调研

news 2025/11/1 13:12:26

结论

MiMo 在数学推理和代码竞赛的评测中表现出色，但是相较于 OpenAI 的 o1-mini 和阿里的 QwQ-32B-Preview 等更大规模的模型，推理耗时更长（4 到 10 倍），花费 Token 更多。

[图片]

链接

开源地址: https://huggingface.co/XiaomiMiMo
技术报告: https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

MiMo-7B-RL：2025 年 4 月 30 日正式开源。

MiMo 不仅在数学推理和代码竞赛的评测中表现出色，甚至超越了 OpenAI 的 o1-mini 和阿里的 QwQ-32B-Preview 等更大规模的模型。

[图片]

在相同强化学习训练数据情况下，MiMo-7B-RL 在数学和代码推理任务上均表现出色，分数超过 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。

1. 原理拆解：预训练+后训练，联动提升推理能力

1.1 预训练优化

MiMo 系列模型从零开始训练，其推理能力的提升由预训练和后训练阶段中数据和算法等多层面的创新联合驱动，包括：

预训练

数据: 着重挖掘富推理语料，并合成约 200B tokens 推理数据。
训练: 采用三阶段数据混合策略，逐步提升训练难度。MiMo-7B-Base 在约 25T tokens 上进行预训练；受 DeepSeek-V3 启发，将多 token 预测作为额外的训练目标，以增强模型性能并加速推理。

▲ 使用 MiMo-7B 实现多 token 预测：在预训练期间使用单个 MTP 层，推理阶段可使用多个 MTP 层以获得额外的加速。

后训练

算法: 提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题，并引入 Easy Data Re-Sampling 策略，以稳定强化学习训练。
数据: 精选了 13 万道数学和代码题作为强化学习训练数据，可供基于规则的验证器进行验证。每道题都经过仔细的清理和难度评估，以确保质量。仅采用基于规则的准确率奖励机制，以避免潜在的奖励黑客攻击。
框架: 设计了 Seamless Rollout 系统，集成了连续部署、异步奖励计算和提前终止功能，以最大限度地减少 GPU 空闲时间，使得强化学习训练加速 2.29 倍，验证加速 1.96 倍。

▲ MiMo-7B-RL Seamless Rollout 引擎概览

2. 性能评测

将 MiMo-7B-Base 与 Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B 等规模相当的开源基础模型进行了比较，所有模型评估都共享相同的评估设置。结果如图所示，MiMo-7B-Base 在所有基准和评估的 k 值取得了高于其他对比模型的 pass@k 分数。随着 k 增加，MiMo-7B-Base 与其他模型的分数差距稳步拉大，特别是在 LiveCodeBench 上。

[图片]

在评估语言推理模型的 BBH 基准测试上，MiMo-7B-Base 的分数为 75.2 分，比 Qwen2.5-7B 高出近 5 分。SuperGPQA 基准测试结果展示出 MiMo-7B-Base 在解决研究生水平问题方面的出色表现。在阅读理解基准测试 DROP 上，该模型的表现优于其他对比模型。

[图片]

在代码和数学推理任务中，MiMo-7B-Base 的多项分数超过 Llama-3.1-8B、Gemma-2-9B。MiMo-7B-Base 在支持的 32K 上下文长度内实现了近乎完美的 NIAH 检索性能，并在需要长上下文推理的任务中表现出色，多数情况下分数都超过了 Qwen2.5-7B。这些结果验证了其在预训练期间将多样化数据与高质量推理模式相结合的策略的有效性。

[图片]

▲ RULER 上的长上下文理解结果

MiMo-7B-RL 在多项通用基准测试接近或超过拥有 32B 参数规模的 QwQ-32B Preview 模型，数学和代码性能更是全面领先。

[图片]

在数学基准测试 AIME 2025 测试、代码基准测试 LiveCodeBench v6 中，MiMo-7B-RL 的得分均超过 OpenAI o1-mini。

MiMo-7B 系列 4 款大模型的多项数学和代码测试对比

[图片]

3. 推理评测

3.1 通识

3.1.1 数字比较

三个模型都能得到正确回答，o4-mini 回答错误。

Prompt: 3.11 和 3.8 哪个大
链接

要比较 3.11 和 3.8 的大小，可以按照以下步骤进行：

对齐小数位：将 3.8 补足为 3.80，以便与 3.11 的小数位对齐。
逐位比较：

整数部分：两者均为 3，相等。
十分位：3.80 的十分位是 8，3.11 的十分位是 1。显然，8 > 1。
后续位：3.80 的百分位是 0，而 3.11 的百分位是 1，但由于十分位已经确定 8 > 1，后续位无需再比较。

结论：3.8（即 3.80）比 3.11 大。
答案：3.8 大。
耗时：8.79 秒
花费 Token：690

链接
3.8 比 3.11 大。具体来说：

3.11 等于 3.11
3.8 等于 3.80
比较小数部分：
0.80 > 0.11
因此，3.8 大于 3.11。
耗时：2.91 秒
花费 Token：288

链接
3.11 大于 3.8。
耗时：1.48 秒
花费 Token：35

链接
比较两个数字 3.11 和 3.8，可以通过比较它们的小数部分来确定哪个更大。

3.11 可以看作是 3 和 0.11 的组合。
3.8 可以看作是 3 和 0.8 的组合。
比较小数部分：
0.11 < 0.8
因此，3.8 比 3.11 大。
耗时：2.44 秒
花费 Token：128

3.1.2 脑筋急转弯

中文脑筋急转弯类的问题上，答案也都完全正确。

Prompt: 有一种动物，你杀了他却流你自己的血，是什么动物
链接

正确答案是：蛇
当杀蛇时，尤其是毒蛇，它们可能会在自卫时咬人，导致施害者中毒并流血。因此，杀蛇（他）的结果是流下你自己的血。
答案：蛇
耗时：98.74 秒
花费 Token：7,099

链接
这个谜语的答案是“蚊子”。
解释：当你杀死蚊子时，通常是在它叮咬你之后。蚊子吸食你的血液后，你可能因为刮破被叮咬的地方而流自己的血。因此，杀死蚊子后流的是你自己的血。
答案：蚊子
耗时：6.97 秒
花费 Token：1,075

链接
这个谜语的答案是“猪”。因为在屠宰猪的时候，猪会流出很多血，而人杀死猪时，也会因为处理不当或被猪反击而受伤，流出自己的血。
耗时：1.66 秒
花费 Token：81

链接
这个问题的答案是“牡蛎”（或某些类型的贝类）。这个谜语的解答基于文字游戏和生物学事实。当你打开一只牡蛎时，如果操作不当，可能会割伤自己的手，从而流自己的血。这里的“杀”是指为了获取牡蛎肉而打开它，而“流自己的血”则是指在这个过程中不小心伤害到自己。这是一个有趣的谜语，用来展示语言中的巧妙之处以及与特定生物互动时需要小心的道理。
耗时：2.74 秒
花费 Token：122

外语脑筋急转弯

Prompt: Was für ein Tier tötest du, vergießt aber trotzdem dein eigenes Blut
链接

思维链：You have to kill a(animal), but still end up spilling your own blood. The answer hinges on a clever play of words. In German, the phrase “tötest du, vergiezt aber dein eigenes Blut” can lead to a pun. One possible answer is “Kribbelniere” (a type of bladder cancer), which sounds like “Kribbeln” (crawling) and “Niere” (kidney), but this seems like a stretch. Another plausible option is “Schwein” (pig), as “Schweinetöter” (pig killer) might imply self-harm, but this is not a confirmed answer.
However, based on the English counterpart of this riddle, the most logical answer is a cannibal (Kannibal), since eating another person (or implying to “kill” in a metaphorical sense) would result in spilling your own blood metaphorically. While technically cannibals are humans, the riddle likely uses this wordplay loosely. Thus, the final answer is: Kannibal
(However, this answer supposes the question allows merging human and animal contexts. If strictly adhering to ‘animal’, the riddle might not have a perfect match, suggesting a possibly 成语-based Shazam.)
耗时：107.08 秒
花费 Token：13,772

链接
Diese Rätselaufgabe bezieht sich auf ein Tier, bei dem, wenn man es tötet oder öffnet, man selbst verletzt werden kann. Die Antwort ist ein “Auster” (Oyster auf Englisch). Wenn man eine Auster öffnet, um auf ihr Fleisch zuzugreifen, besteht die Gefahr, dass man sich an ihren scharfen Schalen schneidet und so sein eigenes Blut vergießt. Dieses Rätsel spielt auf die Tatsache an, dass das Öffnen einer Auster vorsichtig durchgeführt werden muss, um Verletzungen zu vermeiden.
耗时：3.21 秒
花费 Token：296

3.2 数学

链接
给定的数列是 1，2，6，24，120，其中问号处的数字应为 720。这个数列的数学意义是正整数的阶乘（Factorial），即第 n 项为 n!，具体推导如下：

计算相邻项的比值：

第 2 项 / 第 1 项 = 2/1=2
第 3 项 / 第 2 项 = 6/2=3
第 4 项 / 第 3 项 = 24/6=4
第 5 项 / 第 4 项 = 120/24=5
可见比值依次为 2, 3, 4, 5，推测下一项的比值为 6。

验证阶乘规律：

第 1 项：1! = 1
第 2 项：2! = 2
第 3 项：3! = 6
第 4 项：4! = 24
第 5 项：5! = 120
第 6 项：6! = 720
完全符合阶乘的定义。
结论：问号处的数字是 720，该数列为正整数阶乘序列。
耗时：36.53 秒
花费 Token：1,383

链接
这个数列是阶乘数列。各项的计算方式如下：

1 = 1! （1 的阶乘）
2 = 2! （2 的阶乘）
6 = 3! （3 的阶乘）
24 = 4! （4 的阶乘）
120 = 5! （5 的阶乘）
因此，问号处的数字是 720，因为 6! = 720。
数学意义：阶乘（Factorial）在数学中具有重要的作用，特别是在组合数学、概率论和代数中。具体而言：

排列与组合：阶乘用于计算排列（有序的选择）和组合（无序的选择）的数量。例如，n 个不同的物品排列成 r 个一排的方式数为 n! / (n−r)!。
概率论：在概率计算中，阶乘帮助确定事件发生的可能性，特别是涉及排列的情况。
泰勒级数：在分析数学中，阶乘用于表达函数的泰勒级数展开，例如，e^x 的泰勒展开式为 ∑(x^n)/n!。
代数和微积分：阶乘在多项式系数、组合系数以及微积分中的某些积分计算中起到关键作用。
递归与算法：计算阶乘也是学习递归和算法设计的经典例子，帮助理解计算过程和复杂度分析。
总之，阶乘数列在多个数学领域中都是基础且不可或缺的工具。
耗时：4.53 秒
花费 Token：661

链接
这个数列是 1, 2, 6, 24, 120，对应的是阶乘数列（n!）。具体来说：

0! = 1
1! = 1
2! = 2
3! = 6
4! = 24
5! = 120
因此，问号处的数字是 6!，即 720。
这个数列的数学意义在于阶乘，它在组合学、概率论及其他数学领域中有广泛的应用。例如，它用于计算排列和组合的数量。
耗时：3.08 秒
花费 Token：177

链接
这个数列是阶乘数列的一部分。阶乘是一个重要的数学概念，对于一个正整数 n，它的阶乘（记作 n!）定义为从 1 到 n 所有正整数的乘积。特别地，规定 0! = 1。数列中的每个数字都是前一个数字乘以其位置序号得到的：

1! = 1
2! = 2 × 1 = 2
3! = 3 × 2 × 1 = 6
4! = 4 × 3 × 2 × 1 = 24
5! = 5 × 4 × 3 × 2 × 1 = 120
因此，接下来的数字应该是 6!，即 6 × 5!：
6! = 6 × 5 × 4 × 3 × 2 × 1 = 720
所以，问号处的数字是 720。
这个数列展示了阶乘的增长速度，阶乘在组合数学、概率论以及计算复杂性理论中有广泛的应用。
耗时：8.73 秒
花费 Token：322

3.3 文学

Prompt: 把《出师表》翻译为现代汉语，但是保留原文的气韵与韵味
链接

《出师表》白话文译本（保留韵律感）：
臣本布衣，躬耕南阳，后 served 于先帝刘备，受遗诏继君位。夙夜忧叹，恐托付不效，今临表涕零，浆泪沾衣。先帝创基业未半而中道崩殂，今上下惊惶，it trailers 无穷。臣受命 comfem 进奉蜀主，栈区 waves，and inchardition unknown，特列此表以告先帝 memory。今当远行 ancestar，临难 arrays，伏(all declare)此心：时运不 perm，命途多 qua，竭精 practicing，至死不 tracking the worker。臣本汉室常 min，今仗 oke rmation，若兴 ri 士，振剑 zo 龙，既定西川，prime miya adc，此 nondiomatic rithm of the HAN rystal。若复 ad tive，臧 perhaps

查看全文

http://www.dtcms.com/a/185467.html