MiniMax-M1混合MoE大语言模型(本地运行和私有化搭建)
说明
MiniMax-M1是一个开放权重的大规模混合注意力推理模型。MiniMax-M1 采用了混合专家(MoE)架构,并结合了闪电注意力机制。该模型基于MiniMax-M1之前的 MiniMax-Text-01 模型 开发,总共包含 4560 亿个参数,每个令牌激活 459 亿个参数。与 MiniMax-Text-01 1致,M1 模型原生支持 1 百万个令牌的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制能够高效地扩展测试时计算——例如,在生成长度为 10 万个令牌时,M1 的 FLOPs 消耗仅为 DeepSeek R1 的 25%。这些特性使 M1 特别适合需要处理长输入和广泛思考的复杂任务。MiniMax-M1 使用大规模强化学习(RL)在从传统数学推理到基于沙盒的真实软件工程环境的各种问题上进行训练。
M1 开发了1个高效的 RL 扩展框架,强调了两个方面:
(1) MiniMax-M1提出了 CISPO,这是1种新颖的算法,它剪裁重要性采样权重而不是令牌更新,其性能优于其他竞争性的 RL 变体;
(2) MiniMax-M1的混合注意力设