当前位置: 首页 > news >正文

【读代码】从预训练到后训练:解锁语言模型推理潜能——Xiaomi MiMo项目深度解析

项目开源地址:https://github.com/XiaomiMiMo/MiMo
在这里插入图片描述

一、基本介绍

Xiaomi MiMo是小米公司开源的7B参数规模语言模型系列,专为复杂推理任务设计。项目包含基础模型(MiMo-7B-Base)、监督微调模型(MiMo-7B-SFT)和强化学习模型(MiMo-7B-RL)等多个版本。其核心创新在于通过全流程优化解锁模型的推理潜力:

技术亮点

  • 预训练阶段:优化数据管道,提升推理模式密度
  • 训练目标:引入多token预测(MTP)加速推理
  • 后训练阶段:创新性代码奖励机制与数据重采样策略
  • 工程优化:无缝rollout引擎实现1.9倍训练加速

性能表现

  • 在AIME2024数学竞赛达到68.2%准确率(超过DeepSeek R1)
  • LiveCodeBench v5代码基准57.8%准确率
  • 推理速度提升90%(MTP加速)

二、快速上手

环境配置

# 使用官方推荐环境
conda create -n mimo python=3.10
conda activate mimo
pip install vllm>=0.7.3 torch==2.3.0

基础推理示例

from vllm import LLM, SamplingParamsmodel = LLM("XiaomiMiMo/MiMo-7B-RL",trust_remote_code=True,num_speculative_tokens=1)prompt = "解方程:x² -5x +6 = 0"
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)outputs 

相关文章:

  • day46 python预训练模型补充
  • HTTP常见的请求方法、响应状态码、接口规范介绍
  • Elasticsearch 集群运维常用命令详解
  • Python趣学篇:用数学方程绘制浪漫爱心
  • git引用概念(git reference,git ref)(简化对复杂SHA-1哈希值的管理)(分支引用、标签引用、HEAD引用、远程引用、特殊引用)
  • Pytest+Selenium UI自动化测试实战实例
  • 力扣HOT100之二分查找:74. 搜索二维矩阵
  • 2025软件供应链安全最佳实践︱证券DevSecOps下供应链与开源治理实践
  • SkyWalking架构深度解析:分布式系统监控的利器
  • 【计算机网络】网络层协议
  • LeetCode 3226.使两个整数相等的位更改次数
  • image: ragsaas/backend:latest 背后的 来源机制 和 可能的来源地
  • DeepSeek本地部署及WebUI可视化教程
  • PyTorch——损失函数与反向传播(8)
  • Docker快速部署AnythingLLM全攻略
  • AlexNet,VGG,Inceptions, ResNet, MobileNet对比
  • Windows提权技术完全指南:从基础到高级实战
  • Catsxp 从Edge商店安装扩展
  • 香港国际金融通道中的资金行为建模探索
  • 数据库MySQL基础(3)
  • 网站建设所需资料及费用/阿里指数查询官网入口
  • 广东卫视你会怎么做网站/交换友链
  • 网站怎样制作图文排版/百度官网
  • seo排名赚app下载/福州seo快速排名软件
  • 做网站技术服务费属于什么科目/宁波网站建设与维护
  • 凡科建站的优缺点/宁波网站推广方式怎么样