KIMI K2:开放式的智能体(Agentic)人工智能
文章目录
- 摘要
- 1 引言
- 2 预训练
- 2.1 MuonClip:通过权重裁剪实现稳定训练
- 2.2 预训练数据:通过改写提高token效用
- 2.3 模型架构
- 2.4 训练基础设施
- 2.4.1 计算集群
- 2.4.2 模型扩展的并行策略
- 2.4.3 激活值减少
- 2.5 训练方案
- 3 训练后优化
- 3.1 有监督微调
- 3.1.1 用于工具学习的大规模智能体数据合成
- 3.2 强化学习
- 3.2.1 可验证奖励健身房
- 3.2.2 超越验证:自我批判评分标准奖励
- 3.2.3 RL算法
- 3.3 强化学习(RL)基础设施
- 3.3.1 混合部署架构
- 3.3.2 高效引擎切换
- 3.3.3 高效系统启动
- 3.3.4 智能体推演
- 4 评估
- 4.1 训练后评估
- 4.1.1 评估设置
- 4.1.2 评估结果
- 4.2 预训练评估
- 4.2.1 评估设置
- 4.2.2 评估结果
- 4.3 安全评估
- 4.3.1 实验设置
- 4.3.2 安全评估结果
- 5 局限性
- 6 结论
- 7 致谢
- 附录
- A 贡献
- B 工具调用的BToken模板
- C 评估详情
- DQK-Clip不会降低模型质量
- E 为什么Muon更容易出现对数几率爆炸
- F 通用强化学习K2评判标准
- F.1核心评判标准
- F.2规定性评判标准
- F.3 局限性
- G强化学习训练的引擎切换流水线
摘要
我们推出Kimi K2,这是一款包含320亿激活参数和总计1万亿参数的专家混合(Mixture-of-Experts,MoE)大型语言模型。我们提出了MuonClip优化器,该优化器在Muon的基础上采用了一种新颖的QKQKQK-clip技术,以解决训练不稳定问题,同时保持Muon先进的令牌效率。基于MuonClip,K2在15.5万亿个令牌上进行了预训练,且未出现任何损失峰值。在后续训练阶段,K2经历了一个多阶段后续训练过程,其中突出特点包括大规模智能体数据合成管道和联合强化学习(RL)阶段,在此阶段,模型通过与真实环境和合成环境的交互来提升自身能力。Kimi K2在开源非思维模型中取得了最先进的性能,在智能体能力方面表现突出。值得注意的是,K2在Tau2-Bench上获得66.1分,在ACEBench(英文版)上获得76.5分,在SWE-Bench验证版上获得65.8分,在SWE-Bench多语言版上获得47.3分——在非思维设定下超越了大多数开源和闭源基准模型。它在编码、数学和推理任务中也展现出强大能力,在LiveCodeBench v6上获得53.7分,在2025年美国数学邀请赛(AIME 2025)上获得49.5分,在GPQA-Diamond上获得75.1分,在OJBench上获得27.1分,且均未进行扩展思考。这些结果使Kimi K2成为迄今为止最具能力的大型开源语言模型之一,特别是在软件工程和智能体任务方面。我们发布了基础模型和后续训练模型的检查点,以促进智能体智能的未来研究和应用。
1 引言
大型语言模型(LLMs)的发展正朝着智能体智能(Agentic Intelligence)的方向发生深刻的范式转变——模型在复杂动态环境中自主感知、规划、推理和行动的能力。这一转变标志着从静态模仿学习向通过交互主动学习的模型的转变,这些模型能够获取超出其训练分布的新技能,并通过经验调整行为[63]。人们认为,这种方法使人工智能智能体能够超越静态人类生成数据的局限性,并通过自身的探索和利用获得超人能力。因此,智能体智能正迅速成为下一代基础模型的关键能力,在工具使用、软件开发和现实世界自主性方面具有广泛影响。
实现智能体智能在预训练和后续训练阶段都带来了挑战。预训练必须在有限的高质量数据约束下为模型赋予广泛的通用先验知识,将令牌效率(每个令牌的学习信号)提升为关键的扩展系数。后续训练必须将这些先验知识转化为可操作的行为,然而,多步推理、长期规划和工具使用等智能体能力在自然数据中很少见,且扩展成本高昂。结合偏好和自我批评的通用强化学习(RL)技术与可扩展的、结构化的、高质量的智能体轨迹合成对于弥合这一差距至关重要。
在本研究中,我们推出Kimi K2,这是一款拥有1.04万亿参数、320亿激活参数的专家混合(MoE)大型语言模型,旨在专门应对核心挑战并突破智能体能力的界限。我们的贡献涵盖了预训练和后续训练的前沿领域:
-
我们提出了MuonClip,这是一种新型优化器,它将高效的Muon算法与一种称为QKQKQK-Clip的稳定性增强机制相结合。使用MuonClip,我们成功地在15.5万亿个令牌上对Kimi K2进行了预训练,且未出现任何损失峰值。
-
我们引入了一个大规模智能体数据合成管道,该管道通过模拟和真实环境系统地生成工具使用演示。该系统构建了多样化的工具、智能体、任务和轨迹,以大规模创建高保真、可验证的正确智能体交互。
-
我们设计了一个通用强化学习框架,该框架将可验证奖励(RLVR)与自我批判相结合,将对齐从静态领域扩展到开放式领域。
Kimi K2在广泛的智能体和前沿基准测试中表现出色。它在Tau2-bench上获得66.1分,在ACEBench(英文版)上获得76.5分,在SWE-bench验证版上获得65.8分,在SWE-bench多语言版上获得47.3分,在非思维评估设定下超越了大多数开源和闭源权重基准模型,缩小了与Claude 4 Opus和Sonnet的差距。在编码、数学和更广泛的STEM领域,Kimi K2在LiveCodeBench v6上获得53.7分,在OJBench上获得27.1分,在AIME 2025上获得49.5分,在GPQA-Diamond上获得75.1分,进一步突显了其在通用任务中的能力。在LMSYS竞技场排行榜(2025年7月17日)3上,根据3000多张用户投票,Kimi K2在开源模型中排名第一,在所有模型中排名第五。
为了推动智能体智能的进一步发展,我们开源了基础模型和后续训练模型的检查点,使社区能够大规模探索、完善和部署智能体智能。
2 预训练
Kimi K2的基础模型是一个万亿参数的专家混合(Mixture-of-Experts,MoE)Transformer [72] 模型,在15.5万亿个高质量数据token上进行了预训练。鉴于高质量人类数据越来越有限,我们认为,在大规模语言模型的扩展过程中,token效率正成为一个关键系数。为此,我们引入了一套专门为最大化token效率而设计的预训练技术。具体而言,我们采用了高效的Muon优化器 [33, 46],并通过引入QK-Clip来缓解其训练不稳定问题。此外,我们还引入了合成数据生成方法,以进一步从可用的高质量token中挖掘更多智能。模型架构采用了一种基于经验扩展定律分析的超稀疏MoE架构,并配备多头潜在注意力(Multi-Head Latent Attention,MLA)机制,类似于DeepSeek-V3[10]。底层基础设施则旨在优化训练效率和研究效率。
2.1 MuonClip:通过权重裁剪实现稳定训练
我们使用高效的Muon优化器 [33] 训练Kimi K2,该优化器集成了权重衰减和一致更新均方根(Root Mean Square,RMS)缩放 [46]。我们之前在Moonlight [46] 中的实验表明,在相同的计算预算和模型规模(因此训练数据量也相同)下,Muon的性能显著优于AdamW [36,48][36,48][36,48],使其成为提高大规模语言模型训练中token效率的有效选择。
扩展Muon训练时的训练不稳定问题尽管Muon效率很高,但在扩展Muon训练时,我们发现了一个挑战:由于注意力对数几率(logits)爆炸导致的训练不稳定问题。这一问题在Muon训练中更为频繁,而在我们的实验中,AdamW则较少出现。现有的缓解策略并不充分。例如,对数几率软上限(logit soft-cap)[69] 直接对注意力对数几率进行裁剪,但在应用上限之前,查询(query)和键(key)之间的点积仍可能过度增长。另一方面,查询-键归一化(Query-Key Normalization,QK-Norm)[11, 81] 不适用于多头潜在注意力(MLA),因为其在推理过程中键矩阵未完全具体化。
利用QK-Clip驯服Muon为了解决这一问题,我们提出了一种新颖的权重裁剪机制QK-Clip,以显式约束注意力对数几率。QK-Clip通过在更新后对查询和键投影权重进行重新缩放,来限制注意力对数几率的增长。
设Transformer层的输入表示为XXX。对于每个注意力头hhh,其查询、键和值投影计算如下:
Qh=XWah,Kh=XWkh,Vh=XWvh.\mathbf{Q}^{h}=\mathbf{X}\mathbf{W}_{a}^{h},\quad\mathbf{K}^{h}=\mathbf{X}\mathbf{W}_{k}^{h},\quad\mathbf{V}^{h}=\mathbf{X}\mathbf{W}_{v}^{h}.Qh=XWah,Kh=XWkh,Vh=XWvh.
其中,Wa,Wk,Wv\mathbf{W}_{a},\mathbf{W}_{k},\mathbf{W}_{v}Wa,Wk,Wv为模型参数。注意力输出为:
Oh=softmax(1dQhKh⊤)Vh.\mathbf{O}^{h}=\operatorname{softmax}\left(\frac{1}{\sqrt{d}}\mathbf{Q}^{h}\mathbf{K}^{h\top}\right)\mathbf{V}^{h}.Oh=softmax(d1QhKh⊤)Vh.
我们将最大对数几率(每个头的标量)定义为该批次BBB中softmax的最大输入:
Smaxh=1dmaxX∈Bmaxi,jQihKjh⊤S_{\operatorname*{max}}^{h}=\frac{1}{\sqrt{d}}\operatorname*{max}_{\mathbf{X}\in B}\operatorname*{max}_{i,j}\mathbf{Q}_{i}^{h}\mathbf{K}_{j}^{h\top}Smaxh=d1X∈Bmaxi,jmaxQihKjh⊤
其中,i,ji,ji,j是训练样本XXX中不同token的索引。
QK-Clip的核心思想是,每当SmaxhS_{\mathrm{max}}^{h}Smaxh超过目标阈值τ\tauτ时,就对Wk,Wa\mathbf{W}_{k},\mathbf{W}_{a}Wk,Wa进行重新缩放。重要的是,这一操作不会改变当前步骤的前向/反向计算——我们只是将最大对数几率作为指导信号,以确定控制权重增长的强度。
一种简单的实现方式是同时对所有头进行裁剪:
Wqh←γαWqhWkh←γ1−αWkh\mathbf{W}_{q}^{h}\gets\gamma^{\alpha}\mathbf{W}_{q}^{h}\qquad\mathbf{W}_{k}^{h}\gets\gamma^{1-\alpha}\mathbf{W}_{k}^{h}Wqh←γαWqhWkh←γ1−αWkh
其中,γ=min(1,τ/Smax)\gamma=\operatorname*{min}(1,\tau/S_{\operatorname*{max}})γ=min(1,τ/Smax),Smax=maxhSmaxhS_{\mathrm{max}}=\mathrm{max}_{h}\,S_{\mathrm{max}}^{h}Smax=maxhSmaxh。α\alphaα是一个平衡参数,通常设为0.5,对查询和键应用相等的缩放。
然而,我们发现实际上只有一小部分头的对数几率会爆炸。为了尽量减少对模型训练的干预,我们为每个头确定一个缩放因子γh=min(1,τ/Smaxhˉ)\gamma_{h}=\operatorname*{min}(1,\tau/\bar{S_{\mathrm{max}}^{h}})γh=min(1,τ/Smaxhˉ),并选择对每个头应用QK-Clip。对于常规的多头注意力(Multi-Head Attention,MHA),这种裁剪非常直接。对于MLA,我们只对非共享的注意力头组件进行裁剪:
qC\mathbf{q}^{C}qC和kC\mathbf{k}^{C}kC(头特定组件):每个都按γh\sqrt{\gamma_{h}}γh进行缩放
qR\mathbf{q}^{R}qR(头特定旋转):按γh\gamma_{h}γh进行缩放
kR\mathbf{k}^{R}kR(共享旋转):保持不变,以避免对头之间产生影响。
MuonClip:新型优化器我们将Muon与权重衰减、一致的RMS匹配和QK-Clip集成到一个优化器中,称为MuonClip(见算法1)。
我们通过多项扩展实验证明了MuonClip的有效性。首先,我们使用原始Muon训练了一个中等规模的90亿激活参数和530亿总参数的专家混合(MoE)模型。如图2(左图)所示,我们发现最大注意力对数几率迅速超过1000,这表明在Muon训练达到这一规模时,注意力对数几率爆炸问题已经非常明显。通常,这一水平的最大对数几率会导致训练不稳定,包括显著的损失峰值和偶尔的发散。
接下来,我们证明QK−Clip\mathrm{QK-Clip}QK−Clip不会降低模型性能,并确认MuonClip优化器在不影响损失轨迹的情况下保留了Muon的优化特性。实验设计和结果的详细讨论见附录D。
最后,我们使用MuonClip(τ=100\tau=100τ=100)训练大规模MoE模型Kimi K2,并在整个训练过程中监测最大注意力对数几率(图2(右图))。最初,由于QK-Clip的作用,对数几率被限制在100。随着训练的进行,最大对数几率逐渐衰减到一个典型的运行范围,而无需对τ\tauτ进行任何调整。重要的是,训练损失保持平滑稳定,没有出现可观察到的峰值,如图3所示,这验证了MuonClip在大规模语言模型训练中对注意力动态提供了强大且可扩展的控制。
2.2 预训练数据:通过改写提高token效用
预训练中的token效率是指在训练过程中每消耗一个token能带来多少性能提升。提高token效用(即每个token贡献的有效学习信号)可以增强每个token对模型更新的影响,从而直接提高token效率。这在高质量token供应有限且必须得到最大程度利用的情况下尤为重要。提高token效用的一种简单方法是通过重复接触相同的token,但这可能导致过拟合和泛化能力下降。
Kimi K2在预训练数据方面相对于Kimi K1.5的一项关键进展是引入了合成数据生成策略,以提高token效用。具体而言,我们采用了一个精心设计的改写流程,以在不引起显著过拟合的情况下增加高质量token的数量。在本报告中,我们描述了两种针对特定领域的改写技术——分别针对知识和数学领域——实现了这种可控的数据增强。
知识数据改写在基于自然、知识密集型文本进行预训练时存在一个权衡:单个训练周期不足以全面吸收知识,而多周期重复训练则收益递减,并增加过拟合风险。为了提高高质量知识token的token效用,我们提出了一种合成改写框架,该框架包含以下关键组件:
风格和视角多样的提示词:为了提高语言多样性,同时保持事实准确性,我们应用了一系列精心设计的提示词。这些提示词引导大型语言模型以不同风格和视角对原始文本进行忠实改写。
分块自回归生成:为了保持长文档的全局一致性,避免信息丢失,我们采用了一种基于分块的自回归重写策略。文本被分成多个段落,分别进行改写,然后再拼接成完整的段落。这种方法缓解了大型语言模型(LLM)通常存在的隐式输出长度限制。该流程概述见图14。
保真度验证:为了确保原始内容和改写内容之间的一致性,我们进行了保真度检查,比较每个改写段落与其源文本的语义对齐情况。这是训练前的一个初步质量控制步骤。
我们通过在SimpleQA上测试相应准确率,比较了数据改写和多周期重复训练的效果。我们使用K2的早期检查点进行了实验,并评估了三种训练策略:(1)将原始数据集重复10个周期,(2)将数据改写一次并重复10个周期,(3)将数据改写10次并进行单个周期训练。如表1所示,这些策略下的准确率持续提高,证明了我们基于改写的增强方法的有效性。我们将此方法扩展到其他大规模知识语料库,并观察到了同样令人鼓舞的结果,每个语料库最多改写两次。
数学数据改写 为了提高数学推理能力,我们遵循SwallowMath [15]中介绍的方法,将高质量数学文档改写为“学习笔记”风格。此外,我们还通过将其他语言的高质量数学材料翻译成英文来增加数据多样性。
尽管对我们数据集的改写子集进行的初步实验取得了令人鼓舞的结果,但使用合成数据作为持续扩展的策略仍是一个活跃的研究领域。关键挑战包括在不损害事实准确性的情况下将该方法推广到不同的源领域,最小化幻觉和意外毒性,以及确保在大规模数据集上的可扩展性。
预训练数据总体情况 Kimi K2的预训练语料库包含15.5万亿个精心策划的高质量数据token,涵盖四个主要领域:网络文本、代码、数学和知识。大多数数据处理流程遵循Kimi K1.5 [35]中概述的方法。对于每个领域,我们都进行了严格正确性和质量验证,并设计了有针对性的数据实验,以确保策划的数据集具有高多样性和有效性。
2.3 模型架构
Kimi K2是一个拥有1.04万亿参数的专家混合(Mixture-of-Experts,MoE)Transformer模型,激活参数为320亿。该模型架构设计与DeepSeek-V3[10]类似,采用多头潜在注意力(Multi-head Latent Attention,MLA)[44]作为注意力机制,模型隐藏维度为7168,MoE专家隐藏维度为2048。我们的缩放定律分析表明,持续增加稀疏度可显著提升性能,这促使我们将专家数量从DeepSeek-V3的256个增加到384个。为减少推理过程中的计算开销,我们将注意力头数量从DeepSeek-V3的128个减少到64个。表2详细比较了Kimi K2和DeepSeek-V3的架构参数。
稀疏度缩放定律
我们使用Muon为专家混合(MoE)模型家族开发了定制的稀疏度缩放定律。稀疏度定义为专家总数与激活专家数的比值。通过精心控制的小规模实验,我们观察到,在激活参数数量固定(即浮点运算次数FLOPs恒定)的情况下,增加专家总数(即提高稀疏度)可持续降低训练和验证损失,从而提升模型整体性能(图5)。具体而言,根据计算最优稀疏度缩放定律,在达到相同的1.5验证损失时,稀疏度48相较于稀疏度8、16和32,分别将FLOPs降低了1.69倍、1.39倍和1.15倍。尽管增加稀疏度可提升性能,但也会增加基础设施复杂度。为平衡模型性能与成本,我们为Kimi K2采用稀疏度48,每次前向传播激活384个专家中的8个。
注意力头数
DeepSeek-V3 [10]将注意力头数设置为模型层数的大约两倍,以更好地利用内存带宽并提高计算效率。然而,随着上下文长度的增加,注意力头数加倍会导致显著的推理开销,降低长序列的效率。这在智能体应用中成为主要限制,因为此类应用需要高效处理长上下文。例如,在序列长度为128k时,将注意力头数从64个增加到128个(同时保持专家总数为384个不变),会使推理FLOPs增加83%。为评估此设计的影响,我们在不同训练FLOPs下进行了对照实验,比较了注意力头数等于层数与注意力头数加倍的配置。在等标记训练条件下,我们观察到,注意力头数加倍仅在验证损失上带来微小改善(不同计算预算下改善范围为0.5%至1.2%,图6)。鉴于稀疏度48已提供强劲性能,注意力头数加倍带来的边际收益不足以证明推理成本的合理性。因此,我们选择使用64个注意力头。
2.4 训练基础设施
2.4.1 计算集群
Kimi K2在配备NVIDIA H800 GPU的集群上进行训练。H800集群的每个节点包含2 TB内存和8个通过NVLink和NVSwitch连接的GPU。不同节点之间采用8 × 400 Gbps RoCE互连以促进通信。
2.4.2 模型扩展的并行策略
大型语言模型的训练通常在动态资源可用性条件下进行。我们未采用仅适用于特定资源量的单一并行策略,而是追求一种灵活策略,使Kimi K2可在任意32的倍数的节点数量上进行训练。我们的策略结合了16路虚拟阶段的流水线并行(Pipeline Parallelism,PP)[28, 53, 38, 57, 47, 21]、16路专家并行(Expert Parallelism,EP)[39]和ZeRO-1数据并行(Data Parallelism)[60]。
在此设置下,将模型参数以BF16格式存储,并将其梯度累积缓冲区以FP32格式存储,大约需要6 TB的GPU内存,这些内存分布在由256个GPU组成的模型并行组中。优化器状态的放置取决于训练配置。当训练节点总数较多时,优化器状态会被分布,从而将其在每个设备上的内存占用降低到可忽略的水平。当训练节点总数较少时(例如32个),我们可以将部分优化器状态卸载到CPU。
这种方法使我们在小规模和大规模实验中均可重用相同的并行配置,同时让每个GPU为所有状态保留约30 GB的GPU内存。其余GPU内存用于存储激活值,如2.4.3节所述。这种一致的设计对研究效率至关重要,因为它简化了系统并大幅加速了实验迭代。
EP通信与交错1F1B的重叠
通过增加预热微批次数,我们可以在标准的交错1F1B调度[21, 53]下,使EP全对全通信与计算重叠。相比之下,DualPipe [10]将参数和梯度所需的内存加倍,需要增加并行度以进行补偿。增加PP会引入更多气泡,而增加EP(如下所述)会产生更高开销。对于训练参数超过1万亿的大型模型,这些额外成本过高,因此我们选择不使用DualPipe。
然而,交错1F1B将模型划分为更多阶段,引入了不可忽视的PP通信开销。为降低此成本,我们将权重梯度计算从每个微批次的反向传播中解耦,并使其与相应的PP通信并行执行。因此,除预热阶段外,所有PP通信均可有效重叠。
更小的EP组大小
为确保在1F1B阶段实现完全的计算-通信重叠,K2中减少的注意力计算时间(K2有64个注意力头,而DeepSeek-V3有128个)要求最小化EP操作时间。这通过采用最小的可行EP并行策略实现,即EP=16\mathrm{EP}=16EP=16。使用更小的EP组还可放松专家平衡约束,无需进一步调整即可实现接近最优的速度。
2.4.3 激活值减少
在为参数、梯度缓冲区和优化器状态预留空间后,每个设备上的剩余GPU内存不足以存储完整的MoE激活值。为确保激活值内存符合限制,特别是在1F1B预热阶段积累最大激活值的初始流水线阶段,我们采用了以下技术。
选择性重计算
重计算应用于计算成本低但内存占用高的阶段,包括LayerNorm、SwiGLU和MLA上投影[10]。此外,在训练过程中对MoE下投影进行重计算,以进一步减少激活值内存。虽然此重计算为可选操作,但它可维持足够的GPU内存,防止因训练初期专家不平衡导致的崩溃。
对不敏感激活值采用FP8存储
MoE上投影和SwiGLU的输入以1 × 128块的形式压缩为FP8-E4M3格式,并使用FP32比例因子。小规模实验表明,此操作不会导致可测量的损失增加。由于我们在初步研究中观察到性能下降的潜在风险,因此未在计算中应用FP8。
激活值CPU卸载
所有剩余激活值均卸载到CPU内存。复制引擎负责流式传输卸载和加载,并与计算和通信内核重叠。在1F1B阶段,我们在预取下一个微批次的后向激活值的同时,卸载前一个微批次的前向激活值。预热和冷却阶段采用类似处理方式,整体模式如图7所示。尽管由于PCIe流量拥塞,卸载可能会对EP流量产生轻微影响,但我们的测试表明,EP通信仍可完全重叠。
2.5 训练方案
我们使用MuonClip优化器(算法1)和WSD学习率调度[25],以4096标记的上下文窗口对模型进行预训练,共处理15.5万亿个标记。前10万亿个标记在500步预热后以2e-4的恒定学习率进行训练,随后5.5万亿个标记的学习率从2e-4衰减至2e-5。整个训练过程中权重衰减设置为0.1,全局批量大小保持在6700万个标记。整体训练曲线如图3所示。
批量大小保持在6700万个标记不变,同时学习率从2e-5衰减至7e-6。在此阶段,模型在4000亿个标记(序列长度为4k)上进行训练,随后在额外600亿个标记(序列长度为32k)上进行训练。为将上下文窗口扩展至128k,我们采用了YaRN方法[55]。
3 训练后优化
3.1 有监督微调
我们在训练后优化过程中采用Muon优化器[33],并建议将其与K2结合用于微调。这一建议源于我们之前的研究结论[46],即使用Muon进行预训练的检查点,配合Muon微调可获得最佳性能。
我们构建了一个涵盖多个领域的大规模指令微调数据集,其构建遵循两个核心原则:最大化提示多样性,并确保回复质量。为此,我们开发了一套针对不同任务领域的数据生成流程,综合运用人工标注、提示工程和验证过程。我们采用K1.5[35]和其他内部领域专家模型来生成候选数据并进行过滤。对于智能体数据,我们创建了一个数据合成流程,通过多步骤、交互式推理,使模型掌握工具使用能力。
3.1.1 用于工具学习的大规模智能体数据合成
现代大语言模型(LLM)智能体的一个关键能力是能够自主使用陌生工具,与外部环境交互,并通过推理、执行和纠错迭代优化自身行为。智能体的工具使用能力对于解决需要与现实世界系统动态交互的复杂多步骤任务至关重要。ACEBench[6]和7-bench[85]等近期基准测试凸显了全面评估工具使用能力的重要性,而ToolLLM[58]和ACEBench[6]等框架则展示了有效教授模型使用数千种工具的潜力。
然而,大规模训练此类能力面临重大挑战:尽管现实环境能提供丰富且真实的交互信号,但由于成本、复杂性、隐私和可访问性限制,往往难以大规模构建此类环境。近期在合成数据生成方面的研究(AgentInstruct[51];Self-Instruct[75];StableToolBench[20];ZeroSearch[66])展示了在不依赖现实交互的情况下创建大规模数据的潜力。基于这些进展,并受ACEBench[6]全面数据合成框架的启发,我们开发了一个流程,可大规模模拟现实世界中的工具使用场景,生成数万个多样化且高质量的训练样本。
我们的数据合成流程包含三个阶段,如图8所示。
工具规范生成:首先从现实工具和LLM合成工具构建一个大型工具规范库;
智能体和任务生成:针对从工具库中采样的每一组工具,生成一个使用该工具集的智能体及相应的任务;
轨迹生成:针对每个智能体和任务,生成智能体通过调用工具完成任务的轨迹。
领域演进与工具生成。我们通过两种互补方法构建全面的工具库。首先,直接从GitHub库中获取3000多个现实MCP(模型上下文协议)工具,利用现有的高质量工具规范。其次,通过分层领域生成过程系统演进[82]合成工具:从关键类别(如金融交易、软件应用、机器人控制)开始,在每个类别中演进多个具体应用领域。然后为每个领域合成具有清晰接口、描述和操作语义的专业工具。这一演进过程生成了超过20000个合成工具。图9通过t-SNE嵌入展示了工具集的多样性,表明MCP和合成工具覆盖了工具空间的不同互补区域。
智能体多样化。我们通过合成各种系统提示,并为其配备来自工具库的不同工具组合,生成数千个不同的智能体。这创建了具有不同能力、专业领域和行为模式的多样化智能体群体,确保覆盖广泛的潜在用例。
基于评分标准的任务生成。针对每个智能体配置,我们生成从简单到复杂的操作任务。每个任务都配有明确的评分标准,指定成功标准、预期工具使用模式和评估检查点。这种基于评分标准的方法确保对智能体性能进行一致且客观的评估。
**多轮轨迹生成。 **我们通过以下几个组件模拟现实工具使用场景:
-
用户模拟:具有不同沟通风格和偏好的LLM生成用户角色与智能体进行多轮对话,创建自然交互模式。
-
工具执行环境:一个复杂的工具模拟器(功能上等同于世界模型)执行工具调用并提供现实反馈。模拟器在每次工具执行后维护并更新状态,实现具有持久效果的复杂多步骤交互。它引入可控随机性,产生包括成功、部分失败和边缘情况在内的多样化结果。
质量评估与过滤。 基于LLM的评估器根据任务评分标准评估每条轨迹。只有符合标准的轨迹被保留用于训练,确保数据高质量,同时允许任务完成策略存在自然差异。
模拟保真度的固有局限。为解决这一问题,我们对需要高度真实性的场景(特别是编码和软件工程任务)采用现实执行沙盒作为模拟环境的补充。这些真实沙盒执行实际代码,与真实开发环境交互,并通过测试套件通过率等客观指标提供真实反馈。这种组合确保模型从模拟场景的多样性和真实执行的真实性中学习,显著增强实际智能体能力。
通过利用结合可扩展模拟和针对性现实执行的综合流程,我们生成了多样且高质量的工具使用演示,平衡了覆盖范围和真实性。合成数据生成的大规模和自动化,加上现实执行环境提供的依据,通过我们的质量过滤过程有效实现了大规模拒绝采样[26, 87]。这种高质量合成数据用于有监督微调时,在广泛的实际应用中显著提升了模型的工具使用能力。
3.2 强化学习
强化学习(RL)被认为比有监督微调(SFT)具有更好的标记效率和泛化能力。基于K1.5[35]的研究,我们在K2中继续扩大RL在任务多样性和训练FLOPs方面的规模。为此,我们开发了一个类似Gym的可扩展框架,支持在广泛场景中应用RL。我们通过大量具有可验证奖励的任务扩展该框架。对于依赖主观偏好的任务,如创意写作和开放式问答,我们引入自我批判奖励机制,让模型进行成对比较以评估自身输出。这种方法使来自不同领域的任务都能受益于RL范式。
3.2.1 可验证奖励健身房
数学、STEM和逻辑任务。对于数学、STEM和逻辑推理领域,我们的RL数据准备遵循两个关键原则:广泛覆盖和适度难度。
广泛覆盖。对于数学和STEM任务,我们结合专家标注、内部问答提取流程和开放数据集[41, 52]收集高质量问答对。在收集过程中,我们利用标签系统有意增加覆盖不足领域的覆盖范围。对于逻辑任务,我们的数据集包含多种格式,包括结构化数据任务(如多跳表格推理、跨表聚合)和逻辑谜题(如24点游戏、数独、谜语、字谜和摩斯密码解码)。
信号并降低学习效率。我们使用SFT模型的pass@k准确率评估每个问题的难度,只选择难度适中的问题。
复杂指令遵循。有效的指令遵循不仅需要理解显式约束,还需要处理隐式要求、应对边缘情况并在长时间对话中保持一致性。我们通过结合自动化验证和对抗检测的混合验证框架,以及可扩展的课程生成流程,解决这些挑战。我们的方法采用双路径系统确保精确性和鲁棒性:
混合规则验证。我们实施两种验证机制:(1)通过代码解释器对具有可验证输出的指令(如长度、风格约束)进行确定性评估;(2)LLM作为评估器对需要细致理解约束的指令进行评估。为应对模型可能在没有实际遵守的情况下声称完成指令的潜在对抗行为,我们增加了专门检测此类欺骗性声明的黑客检查层。
多源指令生成。为构建训练数据,我们采用三种不同的生成策略确保全面覆盖:(1)由数据团队开发的专家设计的复杂条件提示和评分标准;(2)受AutoIF[12]启发的智能体指令增强;(3)专门用于生成探测特定故障模式或边缘情况的额外指令的微调模型。这种多管齐下的方法确保指令覆盖的广度和深度。
忠实性。对于在多轮工具使用、自我生成推理链和开放环境交互等场景中运行的智能体模型,忠实性至关重要。受FACTS Grounding[30]评估框架的启发,我们训练了一个句子级忠实性评估模型进行自动化验证。该评估模型能有效检测上下文中没有支持证据的事实性陈述句子。它作为奖励模型提高整体忠实性表现。
编码与软件工程。为增强解决竞赛级编程问题的能力,我们从开放数据集[27, 83]和合成来源收集问题和评估器。为确保合成数据的多样性和奖励信号的正确性,我们从预训练数据中获取高质量的人工编写单元测试。
对于软件工程任务,我们从GitHub收集大量拉取请求和问题,构建由用户提示/问题和可执行单元测试组成的软件开发环境。该环境基于强大的沙盒基础设施构建,由Kubernetes提供可扩展性和安全性支持。它支持超过10000个并发沙盒实例的稳定性能,非常适合竞赛编码和软件工程任务。
安全性。我们以人工策划的种子提示集开始增强安全性工作,这些提示是手动设计的,涵盖暴力、欺诈和歧视等常见风险类别。
为模拟复杂的越狱尝试(如角色扮演、文学叙述和学术讨论),我们采用具有三个关键组件的自动化提示演进流程:
·攻击模型:迭代生成旨在从目标LLM中引出不安全响应的对抗性提示。
·目标模型:对这些提示生成响应,模拟潜在漏洞。
·评估模型:评估交互以确定对抗性提示是否成功绕过安全机制。
每次交互都使用特定任务评分标准进行评估,使评估模型能够提供二元成功/失败标签。
3.2.2 超越验证:自我批判评分标准奖励
为将模型对齐扩展到具有可验证奖励的任务之外,我们引入了一个基于自我批判反馈的通用强化学习框架。该框架旨在通过将从可验证场景中学到的能力扩展到更广泛的主观任务,使LLM与微妙的人类偏好(包括有用性、创造性、推理深度、事实性和安全性)保持一致。该框架采用自我批判评分标准奖励机制,模型评估自身输出以生成偏好信号。为使K2成为合格的评估器,我们策划了开源和内部偏好数据集的混合数据,并在SFT阶段初始化其批判能力。
自我批判策略优化。在学习循环的第一个核心过程中,K2执行器为覆盖广泛用例的通用提示生成响应。然后,K2评估器通过与评分标准的成对比较对所有结果进行排名,评分标准结合了核心评分标准(附录F.1,代表我们珍视的AI助手Kimi的基本价值观)、规范性评分标准(附录F.2,旨在消除奖励黑客行为)和数据团队为特定指令情境设计的人工标注评分标准。尽管某些评分标准可被指定为强制性,但K2保留根据内部先验对其进行权衡的灵活性。这种能力实现与其在线策略行为演变保持一致的动态持续对齐,确保模型响应与其核心身份保持一致,同时适应特定指令。
闭环评估器优化与对齐。在RL训练期间,使用可验证信号优化评估器模型。从可验证奖励提示生成的在线策略展开用于持续更新评估器,这是将从RLVR直接提取的客观性能信号整合到其评估模型中的关键步骤。这一迁移学习过程使其更主观的判断建立在可验证数据基础上,使可验证任务的性能提升能够增强评估器对缺乏明确奖励信号的复杂任务的判断。这一闭环过程确保评估器持续根据策略演变重新校准其评估标准。通过将主观评估建立在可验证数据基础上,该框架实现了与复杂、不可验证的人类目标的稳健且可扩展的对齐。
因此,这种整体对齐在广泛领域(包括用户意图理解、创意写作、复杂推理和细微语言理解)带来全面的性能提升。
3.2.3 RL算法
我们从先前策略πold\pi_{\text{old}}πold中采样KKK个响应{y1,…,yk}\{y_{1},\ldots,y_{k}\}{y1,…,yk},并针对以下目标优化模型πθ\pi_{\theta}πθ:
LRL(θ)=Ex∼D⌈1K∑i=1K⌈(r(x,yi)−rˉ(x)−τlogπθ(yi∣x)πold(yi∣x))2⌉⌉,L_{\mathrm{RL}}(\theta)=\mathbb{E}_{x\sim\mathcal{D}}\left\lceil\frac{1}{K}\sum_{i=1}^{K}\left\lceil\left(r(x,y_{i})-\bar{r}(x)-\tau\log\frac{\pi_{\theta}(y_{i}|x)}{\pi_{\mathrm{old}}(y_{i}|x)}\right)^{2}\right\rceil\right\rceil\,,LRL(θ)=Ex∼D⌈K1i=1∑K⌈(r(x,yi)−rˉ(x)−τlogπold(yi∣x)πθ(yi∣x))2⌉⌉,
其中rˉ(x)=1k∑i=1kr(x,yi)\begin{array}{r}{\bar{r}(x)=\frac{1}{k}\sum_{i=1}^{k}r(x,y_{i})}\end{array}rˉ(x)=k1∑i=1kr(x,yi)是采样响应的平均奖励;s,τ>0s,\tau>0s,τ>0是促进稳定学习的正则化参数。与SFT一样,我们采用Muon优化器[33]最小化这一目标。当我们将RL训练扩展到K2中更广泛的任务时,主要挑战是在所有领域实现一致的性能提升。为此,我们对RL算法进行了几项改进。
预算控制。人们普遍观察到,RL通常会导致模型生成响应的长度显著增加[35, 19]。虽然更长的响应使模型能够利用额外的测试时计算资源,在复杂推理任务上提高性能,但在非推理领域,其推理成本往往无法证明其合理性。为鼓励模型合理分配推理预算,我们在整个RL训练过程中实施每样本最大标记预算,预算根据任务类型确定。超过标记预算的响应将被截断并受到惩罚,激励模型在指定限制内生成解决方案。经验表明,这种方法显著提高了模型的标记效率,鼓励在所有领域生成简洁而有效的解决方案。
PTX损失。为防止在联合RL训练期间遗忘有价值的高质量数据,我们策划了一个包含人工精选高质量样本的数据集,并通过辅助PTX损失[54]将其整合到RL目标中。这一策略不仅利用了高质量数据的优势,还降低了过度拟合训练方案中明确存在的有限任务集的风险。这一增强显著提高了模型在更广泛领域的泛化能力。
温度衰减。对于创意写作和复杂推理等任务,我们发现,在训练初期通过高采样温度促进探索至关重要。高温使模型能够生成多样且创新的响应,从而促进有效策略的发现,降低过早收敛到次优解决方案的风险。然而,在训练后期或评估期间保持高温可能有害,因为它会引入过多随机性,损害模型输出的可靠性和一致性。为此,我们采用温度衰减计划,在整个训练过程中从探索转向利用。这一策略确保模型在最有利时利用探索,同时最终收敛到稳定且高质量的输出。
3.3 强化学习(RL)基础设施
3.3.1 混合部署架构
与K1.5 [35]类似,我们采用混合部署架构进行同步强化学习训练,其中训练引擎和推理引擎位于同一工作节点上。当一个引擎处于工作状态时,另一个引擎会释放或卸载其图形处理器(GPU)资源以供使用。在强化学习训练的每次迭代中,集中式控制器首先调用推理引擎生成新的训练数据,然后通知训练引擎基于新数据进行训练,并将更新后的参数发送给推理引擎,用于下一次迭代。
每个引擎都针对吞吐量进行了深度优化。此外,随着模型规模扩大到K2级别,引擎切换和故障恢复的延迟变得不可忽视。我们将在以下方面阐述系统设计考量。
3.3.2 高效引擎切换
在推演(rollout)过程中,训练引擎的参数会被卸载到动态随机存取存储器(DRAM)中。因此,启动训练引擎只需进行主机到设备(H2D)的数据传输。然而,启动推理引擎则更具挑战性,因为它必须从采用不同分片模式的训练引擎获取更新后的参数。
鉴于K2的规模和所涉及设备的数量,使用网络文件系统进行参数重分片和广播是不切实际的。为保持低开销所需的总带宽高达每秒数拍字节(PB)。为应对这一挑战,我们在训练节点上部署了分布式检查点引擎,用于管理参数状态。要进行参数更新,每个检查点引擎工作节点从训练引擎获取参数的本地副本,然后在所有检查点引擎工作节点之间广播完整的参数集。随后,推理引擎仅从检查点引擎检索其所需的参数分片。这一过程如图10所示。为实现1万亿(1T1T1T)参数模型的参数更新,我们采用流水线方式逐个参数进行更新,以最小化内存占用(详见附录G)。
我们选择在整个集群中广播完整的参数集,而不考虑每个推理工作节点的具体分片方案。虽然这种方法传输的数据量是理论最优方法的数倍,但它提供了更简单的系统设计,对训练和推理引擎的侵入性更小。我们选择接受这种较小的开销,以完全解耦训练引擎和推理引擎,从而显著简化维护和测试工作。
值得注意的是,由于同步开销降低和网络带宽利用率提高,这种方法优于“按需传输”方法。我们的系统可以在不到30秒的时间内完成Kimi K2模型的完整参数更新,这对于典型的强化学习训练迭代来说是一个可以忽略不计的时间。
3.3.3 高效系统启动
由于大规模训练容易发生系统故障,因此优化启动时间对于像Kimi K2这样的大型模型至关重要。为了启动训练引擎,我们让每个训练工作节点选择性地从磁盘读取部分或全部参数,并向其工作节点广播必要的参数。设计目标是确保所有工作节点仅集体读取一次检查点,从而最小化昂贵的磁盘输入/输出(IO)操作。
由于推理引擎是独立的副本,我们希望避免在它们之间引入额外的同步障碍。因此,我们选择重用检查点引擎进行启动:我们让检查点引擎集体从磁盘读取检查点,类似于训练引擎的启动方式。然后,它使用上一节中介绍的方法更新未初始化的推理引擎的状态。通过利用专用的检查点引擎,系统还对单点故障具有鲁棒性,因为推理副本可以在不与其他副本通信的情况下重新启动。
3.3.4 智能体推演
我们的强化学习基础设施支持长时间跨度、多轮次的智能体任务训练。在推演过程中,这些任务会带来独特的挑战,如复杂的环境交互和长时间的推演过程。在此,我们介绍一些优化方法以缓解这些问题。
由于环境多样,某些交互可能会因等待环境反馈(如虚拟机或代码解释器)而被阻塞,导致GPU闲置。我们采用两种策略来最大化GPU利用率:
(i)我们将重型环境部署为专用服务,以便更容易扩展;
(ii)我们采用大量并发推演来分摊由某些昂贵交互引起的延迟。
智能体推演的另一个挑战是单个推演轨迹可能非常长。为防止长尾轨迹阻塞整个推演过程,我们采用部分推演[35]技术。该策略允许暂停长尾未完成任务,并在下一次强化学习迭代中恢复执行。
为提高研究效率,我们还设计了一个受OpenAI Gym框架[49]启发的统一接口,以便未来与各种环境进行集成。
4 评估
本节首先对Kimi-K2-Instruct进行训练后评估,接着简要概述Kimi-K2-Base的能力,最后给出全面的安全性评估。
4.1 训练后评估
4.1.1 评估设置
基准测试我们会在不同领域对Kimi-K2-Instruct进行评估。在编程方面,我们采用LiveCodeBench v6 [31](2024年8月至2025年5月的问题)、OJBench [77]、MultiPL-E [5]、SWE-bench Verified [32, 84]、TerminalBench [71]、Multi-SWE-bench [86]、SWE-Lancer [50]、PaperBench [65]和Aider-Polyglot [16]。在工具使用任务方面,我们在7²-Bench [3]和AceBench [6]上评估性能,这两个基准强调多轮工具调用能力。在推理方面,我们涵盖广泛的数学、科学和逻辑任务:AIME 2024/2025、MATH-500、HMMT 2025、CNMO 2024、PolyMath-en、ZebraLogic [43]、AutoLogi [91]、GPQA-Diamond [61]、SuperGPQA[13]和Humanity’s Last Exam(纯文本)[56]。我们在以下基准上测试长文本处理能力:用于长文本检索的MRCR4,以及用于长文本推理的DROP [14]、FRAMES [37]和LongBench v2 [2]。在事实性方面,我们评估FACTS Grounding [30]、Vectara幻觉排行榜[73]和FaithJudge [68]。最后,使用MMLU[23]、MMLU-Redux [17]、MMLU-Pro [76]、IFEval [90]、Multi-Challenge [64]、SimpleQA[78]和LiveBench [80](截至2024年11月25日)评估通用能力。
基线模型我们将模型与开源和专有的前沿模型进行基准对比,确保每个候选模型都在非思考配置下进行评估,以消除测试时计算带来的额外增益。开源基线模型:DeepSeek-V3-O324和Qwen3-235B-A22B,后者在供应商推荐的非思考模式下运行。专有基线模型:Claude Sonnet 4、Claude Opus 4、GPT-4.1和Gemini 2.5 Flash Preview(2025年5月20日)。通过官方API在统一的温度和top-p设置下,分别以各自的非思考模式调用每个模型。
评估配置所有测试均以非思考模式查询模型。除SWE-bench Verified(无代理模式)的输出令牌长度上限设为16384个令牌外,其他所有情况的输出令牌长度上限均为8192个令牌。对于每题方差较大的基准测试,我们采用重复采样kkk次并取平均结果的方法来获得稳定分数,记为Avg@kkk。对于长文本任务,我们在评估时将上下文窗口大小设置为128K个令牌,截断任何超过此限制的输入以使其适应窗口。SWE-bench Verified有两种评估模式:无代理编程(通过单补丁且不进行测试,准确率记为Acc)和有代理编程(通过bash/编辑器工具,在单次尝试(准确率记为Acc)和多次尝试(准确率记为Acc)下,使用内部验证器进行N选1选择);SWE-bench Multilingual仅在单次尝试的有代理设置下进行测试。由于评估成本过高,部分数据点已被省略。
4.1.2 评估结果
Kimi-K2-Instruct的全面评估结果见表3,详细解释见附录C。以下,我们重点介绍四个核心领域的关键结果:
有代理能力和竞争力的编程Kimi-K2-Instruct在现实世界的软件工程(SWE)任务上展现出最先进的开源性能。它在SWE-bench Verified(65.8%,多次尝试时为71.6%)、SWE-bench Multilingual(47.3%)和SWE-lancer(39.1%)上的表现优于大多数基线模型,显著缩小了与Claude 4 Opus和Sonnet的差距。在编程竞赛基准测试(如LiveCodeBench v6 53.7%、OJBench 27.1%)上,它在所有模型中也处于领先地位,突显了其在不同难度级别上的实际编程能力。
有代理能力的工具使用
在多轮工具使用基准测试中,Kimi-K2-Instruct树立了新的标准。它在7²-Bench上取得了66.166.166.1的Pass@1分数,在ACEBench上取得了76.576.576.5的分数,大幅超越了所有基线模型。这些结果证实了它在跨领域基于事实、受控且有代理驱动的工具编排方面的强大能力。
通用能力
Kimi-K2-Instruct在通用知识、数学、指令遵循和长文本任务方面展现出强劲且均衡的性能。它在SimpleQA(31.0%31.0\%31.0%)、MMLU(89.5%89.5\%89.5%)和MMLU-Redux(92.7%92.7\%92.7%)上的表现超越了其他开源模型,在指令基准测试(IFEval:89.8%89.8\%89.8%,Multi-Challenge:54.1%54.1\%54.1%)中领先于所有模型。在数学和科学、技术、工程和数学(STEM)领域,它取得了顶尖分数(AIME 2024:69.6%69.6\%69.6%,GPQA-Diamond:75.1%75.1\%75.1%),在长文本事实性和检索任务中也保持竞争力(DROP:93.5%93.5\%93.5%,MRCR:55.0%55.0\%55.0%)。这些结果使Kimi-K2-Instruct在短文本和长文本场景下都成为全面且能力出众的通用模型。
开放式评估
在LMSYS Arena排行榜(2025年7月17日)上,基于超过300030003000张用户投票,Kimi-K2-Instruct在开源模型中排名第一,在所有模型中排名第五。这一来自现实世界的偏好信号——基于各种匿名提示——凸显了Kimi-K2在开放式任务中生成高质量回复的优势。
4.2 预训练评估
4.2.1 评估设置
基准测试我们在多个能力领域对Kimi-K2-Base进行评估。在通用能力方面,我们在MMLU[23]、MMLU-Pro[76]、MMLU-Redux[17]、BBH[67]、TriviaQA[34]、SuperGPQA[13]、SimpleQA[78]、HellaSwag[88]、AGIEval[89]、GPQA-Diamond[61]、ARC-Challenge[8]和WinoGrande[62]上进行评估。在编程能力方面,我们采用EvalPlus[45](对HumanEval[7]、MBPP[1]、HumanEval+和MBPP+取平均值)、LiveCodeBench v6[31]和CRUXEval[18]。在数学推理方面,我们使用GSM8K[9]、GSM8K-Platinum[74]、MATH[24]和CMATH[79]。在中文语言能力方面,我们在C-Eval[29]、CMMLU[40]和CSimpleQA[22]上进行评估。
基线模型我们将模型与领先的开源基础模型进行基准对比:DeepSeek-V3-Base[10]、Qwen2.5-72B-Base[59](注意,Qwen3-235B-A22B-Base并未开源,Qwen系列中最大的开源基础模型是Qwen2.5-72B-Base)以及Llama 4-Maverick[70](Llama 4-Behemoth也未开源)。所有模型均在相同配置下进行评估,以确保公平比较。
评估配置对于MMLU、MMLU-Redux、GPQA-Diamond、HellaSwag、ARC-Challenge、C-Eval和CMMLU,我们采用基于困惑度的评估方法。对于MMLU-Pro、SuperGPQA、TriviaQA、BBH、CSimpleQA、MATH、CMATH、GSM8K、GSM8K-Platinum、CRUXEval、LiveCodeBench和EvalPlus,我们采用基于生成的评估方法。为了降低GPQA-Diamond本身存在的高方差,我们报告了八次独立运行的平均分数。所有评估均使用我们基于LM-Harness-Evaluation[4]开发的内部框架进行,确保所有模型的评估设置一致。
4.2.2 评估结果
表4展示了Kimi-K2-Base与领先的开源基础模型在多个评估基准上的全面对比。结果显示,Kimi-K2-Base在大多数评估任务中取得了最优性能,确立了其在开源领域中的领先基础模型地位。
通用语言理解能力Kimi-K2-Base在12个英文语言基准测试中的10个上取得了最优性能。显著成绩包括MMLU(87.79%87.79\%87.79%)、MMLU-Pro(69.17%69.17\%69.17%)、MMLU-Redux(90.17%90.17\%90.17%)、SuperGPQA(44.67%44.67\%44.67%)和SimpleQA(35.25%35.25\%35.25%),显著优于所有基线模型。
编程能力在编程基准测试中,Kimi-K2-Base在所有指标上均树立了新标准。它在CRUXEval-I-cot上取得了74.00%74.00\%74.00%的成绩,在CRUXEval-O-cot上取得了83.50%83.50\%83.50%的成绩,在LiveCodeBench v6上取得了26.29%26.29\%26.29%的成绩,在EvalPlus上取得了80.33%80.33\%80.33%的成绩,展示了其在需要逐步推理的场景中卓越的代码生成和理解能力。
数学推理能力Kimi-K2-Base展现出卓越的数学能力,在四个基准测试中的三个上领先:MATH(70.22%70.22\%70.22%)、GSM8K(92.12%92.12\%92.12%)和GSM8K-Platinum(94.21%94.21\%94.21%)。在CMATH(90.26%90.26\%90.26%)上,其表现也颇具竞争力,略低于DeepSeek-V3-Base(90.53%90.53\%90.53%)。这些结果突显了该模型在不同难度级别上强大的数学问题解决能力。
中文语言理解能力该模型展示了卓越的多语言能力,在所有中文语言基准测试中均取得了最优成绩:C-Eval(92.50%92.50\%92.50%)、CMMLU(90.90%90.90\%90.90%)和CSimpleQA(77.57%77.57\%77.57%)。这些结果确立了Kimi-K2-Base在中文语言理解方面的领先地位,同时在其他语言方面也保持了强劲表现。
4.3 安全评估
4.3.1 实验设置
我们对Kimi K2与其他开源大语言模型(LLMs)进行了红队测试评估。评估涵盖了一系列攻击场景,包括有害内容、隐私内容和安全内容,以及不同的攻击策略,如提示词注入和迭代越狱。
我们选择使用Promptfoo 5来生成对抗性提示词并分析响应。通过这种方式,我们可以以可扩展的方式对模型进行评估。
模型选择我们将Kimi K2与另外三款开源大语言模型进行了比较:DeepSeek-V3、DeepSeek-R1和Qwen3。Promptfoo设置表5列出了所评估的插件和策略,每个插件都与所有策略配对以评估其性能。
测试用例数量考虑到大语言模型推理的固有非确定性,单次输出的结果可能存在差异。为了解决这一问题,我们为每种策略的每个插件生成了3个攻击提示词。
提示词语言设置我们预先测试了每个插件-策略组合的语言兼容性。一些插件同时支持英语和中文,而另一些仅支持英语。对于同时支持两种语言的组合,我们用每种语言生成3个提示词,因此每个组合共有6个提示词。
人工审核我们将人工审核纳入评估流程。为了尽量减少主观性问题,我们进行了多轮审核,并安排同一名审核人员评估给定测试集中的所有案例,以确保审核的一致性并减少判断的变异性。
4.3.2 安全评估结果
表6展示了不同模型在各种插件-策略组合下的通过率。
在没有针对特定评估场景进行针对性优化的情况下,与其他模型相比,Kimi K2在某些复杂案例(如有害内容-迭代越狱)中的通过率相对较高。
在不同的攻击策略下,模型表现出不同的趋势。在Base64编码策略下,通过率通常接近或达到100%100\%100%,这表明编码转换对模型的基本鲁棒性影响较小。相比之下,渐进增强策略导致通过率普遍下降,表明其对抗效果更强。
此外,复杂的攻击策略并不总是比基础提示词更有效。一些原本具有对抗性的提示词在经过多轮转换后可能会失去其预期含义,导致模型输出的结果意义减弱。
自动化红队测试的局限性由于涉及人工审核,评估结果不可避免地带有一定程度的主观性。此外,某些插件类型涉及API滥用或外部工具调用,更适合评估具备工具调用能力的智能体模型。对于基础大语言模型而言,此类测试的相关性可能有限。
5 局限性
在我们的内部测试中,我们发现当前Kimi K2模型存在一些局限性。在处理复杂推理任务或工具定义不明确时,该模型可能会生成过多标记(token),有时会导致输出被截断或工具调用不完整。此外,如果不必要的启用了工具使用功能,某些任务的性能可能会下降。在构建完整的软件项目时,一次性提示(one-shot prompting)的成功率不如在智能体编码框架下使用K2。我们正在努力解决未来版本中的这些问题,并期待收到更多反馈。
6 结论
我们介绍了Kimi K2,这是一款为智能体智能构建的、拥有111万亿参数的开放权重混合专家(Mixture of Experts,MoE)模型。借助高效标记的MuonClip优化器和15.515.515.5万亿标记的高质量数据集,Kimi K2实现了稳定、可扩展的预训练。训练后阶段将大规模合成工具使用数据与统一的强化学习(Reinforcement Learning,RL)框架相结合,同时利用可验证的奖励和自我批评反馈。Kimi K2在智能体和推理基准测试中树立了新的技术标杆,成为目前功能最强大的开放权重大语言模型(Large Language Model,LLM)。
7 致谢
我们要感谢OpenHands团队和Multi-SWE-bench团队在评估SWE-bench Verified和Multi-SWE-bench实验结果时提供的宝贵支持。
附录
A 贡献
作者按姓氏字母顺序排列。名字后标注有星号(*)的人员表示已不在我们的团队中。
B 工具调用的BToken模板
工具调用的标记(token)结构包含三个部分:
· 工具声明消息:定义可用工具列表和参数模式;
· 助手消息中的工具调用部分:对模型调用工具的请求进行编码;
· 工具结果消息:封装被调用工具的执行结果。
工具声明消息的原始标记格式如下:
蓝色高亮标记为特殊标记,绿色部分(括号引用的内容)为工具声明内容。我们使用TypeScript来表达工具声明内容,因为TypeScript是一种简洁的语言,具有全面的类型系统,能够用简短的文本表达工具参数的类型和约束。代码1展示了两个简单工具在OpenAI聊天补全API兼容的JSON格式中的示例,相比之下,用TypeScript定义的相同工具(见代码2)要简短得多。为了提高兼容性,我们的部分训练数据也使用JSON作为工具声明语言,这样第三方框架无需额外开发即可支持我们的工具调用方案。
代码1:在OpenAI兼容API中使用JSON定义工具
{ "type":"function", "function":{ "name":"get_weather", "description": "Get weather for a location and date", 'parameters":{ "type": "object", "properties":{ "location":{ "type": "string", "description": "City and country e.g. Beijing, China" },"date":{ "type": "string", "description": "Date to query, format in ‘%Y-%m-%d'" } },"required":[ "location" ] } } },{ "type":"function", "function":{ "name":"Calculator", "description": "Simple calculator", "parameters":{ "type":"object", "properties":{ "expr":{ "type": "string", "description": "Arithmetic expression in javascript" } } } } }
代码2:在TypeScript中定义工具
namespace e functions F
// 查询指定位置和日期的天气
type get_weather = (_:{ // 城市和国家,例如:北京,中国location: string, // 待查询日期,格式为‘%Y-%m-%d'date?: string
}) => any; // 简易计算器
type Calculator = (_:{ // JavaScript算术表达式expr?: string
}) ) => any;
模型响应消息中工具调用部分的标记模板如下:
如模板所示,我们通过在单个响应轮次中放置多个工具调用来支持并行工具调用。每个工具调用都有一个唯一的调用标识符(call id),格式为functions.{tool-name}:{counter},其中tool-name是工具的名称,counter是从000开始、对话中所有工具调用的自动递增计数器。
在推理过程中,模型有时会生成意外的标记,导致解析工具调用时出现格式错误。为了解决这个问题,我们受lm-format-enforcer6的启发,开发了一个名为enforcer的约束解码模块。当生成<tool_call_section_begin |>标记时,该模块确保接下来的与工具相关的标记遵循预定义的模板,并且JSON参数字符串遵循声明的模式。
工具结果消息只是一个用工具调用标识符和相应结果编码的文本消息。
C 评估详情
编程任务。我们在具有竞争力的编程基准测试LiveCodeBench和OJBench上评估Kimi-K2-Instruct的能力,Kimi-K2-Instruct分别取得了53.7%53.7\%53.7%和27.1%27.1\%27.1%的优异成绩。这一卓越表现涵盖了中级编程挑战(如LeetCode和AtCoder)和高级竞赛(如NOI和ICPC),超越了领先的开源和专有模型。在多语言编程能力方面,我们采用了MultiPL-E,涵盖C++、C#、Java、JavaScript、PHP、Go等语言,Kimi-K2-Instruct的准确率达到85.7%85.7\%85.7%,而DeepSeek-V3-0324的准确率为83.1%83.1\%83.1%,Qwen3-235B-A22B的准确率为78.2%78.2\%78.2%。在软件工程任务中,Kimi-K2-Instruct在SWE-bench Verified(Python)、SWE-lancer(Python)、SWE-bench Multilingual和Multi-SWE-bench数据集上表现出色。它在解决实际代码库问题方面的表现显著优于开源同类产品,并大幅缩小了与专有模型的性能差距。例如:
· SWE-bench Verified(多次尝试):Kimi-K2-Instruct为71.6%71.6\%71.6%,Claude 4 Sonnet为80.2%80.2\%80.2%
· SWE-bench Multilingual:Kimi-K2-Instruct为47.3%47.3\%47.3%,Claude 4 Sonnet为51.0%51.0\%51.0%
· SWE-lancer:Kimi-K2-Instruct为39.1%39.1\%39.1%,Claude 4 Sonnet为40.8%40.8\%40.8%
在PaperBench上,Kimi-K2-Instruct的准确率达到27.8%27.8\%27.8%,与GPT-4.1接近,且大幅领先于DeepSeek-V3-0324(12.2%12.2\%12.2%)和Qwen3-235B-A22B(8.2%8.2\%8.2%)。在TerminalBench衡量的终端交互任务中,Kimi-K2-Instruct使用默认的Terminus框架达到25.0%25.0\%25.0%,在Moonshot的内部智能体框架内则提升至30%30\%30%,凸显了其在实际智能体编程场景中的能力。此外,在Aider-Polyglot基准测试中,Kimi-K2-Instruct在采用严格去污程序的情况下达到了60.0%60.0\%60.0%的准确率,进一步证明了其在不同编程环境中的强大实力和可靠性。
工具使用任务。我们使用两个互补的测试套件评估多轮工具使用:T2T^{2}T2-Bench和ACEBench。T2T^{2}T2-Bench将原始T-bench的单控制设置扩展为双控制环境,其中智能体和LLM模拟用户对共享状态都有受限的工具操作能力,除了先前的航空公司/零售TAU任务外,还增加了现实的电信故障排除领域,并实现了协调与纯推理的分析。ACEBench是一个大型双语(英/中)基于API的基准测试(涵盖8个领域的4.54.54.5K个API;222K个带注释的评估项),分为NORMAL(基础/个性化/原子)、SPECIAL(不完善或范围外的输入)和AGENT(场景驱动的多轮、多步骤沙盒)三个赛道,并对调用和结果进行自动评分。所有模型均在非思考模式下运行;我们将温度设置为0.00.00.0,使用确定性工具适配器,在Avg@4种子下对T2T^{2}T2的航空公司/零售/电信进行评分,Pass@1/4,并报告ACEBench英语的总体情况。Kimi-K2-Instruct在T2T^{2}T2上的平均微Pass@1为66.166.166.1,而DeepSeek-V3-0324为48.848.848.8,Qwen3-235B-A22B为37.337.337.3。在ACEBench总体评分中,Kimi-K2-Instruct得分为76.576.576.5,而DeepSeek为72.772.772.7,Qwen为70.570.570.5,与GPT-4.1(80.180.180.1)相比仍具有竞争力。
数学、STEM和逻辑任务。在数学任务中,Kimi-K2-Instruct始终表现出色,平均超过Geimini-2.5-Flash5.35.35.3个百分点,超过DeepSeek-V3-O3245.55.55.5个百分点,超过GPT4.115.815.815.8个百分点。例如,在AIME 2024上,Kimi-K2-Instruct的得分率为69.6%69.6\%69.6%,大幅领先另外两款顶级开源模型,比DeepSeek-V3-0324高10.210.210.2个百分点,比Qwen3-235B-A22B高29.529.529.5个百分点。在STEM评估中,Kimi-K2-Instruct在GPQA-Diamond上达到75.1%75.1\%75.1%,超过DeepSeek-V3-0324(68.4%68.4\%68.4%)和所有非思考基线至少555个百分点。在SuperGPQA上,它也超过了此前最佳的开源模型DeepSeek-V3-O3243.53.53.5个百分点。Kimi-K2-Instruct在逻辑推理方面的表现也优于其他两款领先模型。它在ZebraLogic上达到89.0%89.0\%89.0%,在AutoLogi上达到89.5%89.5\%89.5%,超过DeepSeek-V3-0324(84.0%84.0\%84.0%,88.9%88.9\%88.9%),并大幅领先Qwen3-235B-A22B(37.7%37.7\%37.7%,83.3%83.3\%83.3%)。
通用任务。Kimi-K2-Instruct在MMLU和MMLU-Pro上与DeepSeek-V3-0324持平,在MMLU-Redux上以92.792.792.7的EM得分领先——略高于GPT-4.1(92.492.492.4),仅比Claude-Opus-4低1.51.51.5分。除了多项选择任务外,该模型在短答案SimpleQA上的准确率达到31.0%31.0\%31.0%,比DeepSeek-V3-0324高3.33.33.3分,是Qwen3-235B-A22B的两倍多,但仍低于GPT-4.1(42.3%42.3\%42.3%)。在对抗性自由回答LiveBench(2024-11-25快照)上,它达到76.4%76.4\%76.4%,超过Claude-Sonnet 4(74.8%74.8\%74.8%),领先Gemini 2.5 Flash Preview8.68.68.6分。在这项衡量世界知识广度、深度和稳健性的挑战性三重测试中,Kimi-K2-Instruct在开源模型中位居前列。我们使用IFEval和Multi-Challenge评估指令遵循能力。在IFEval上,Kimi-K2-Instruct得分为89.8%89.8\%89.8%,高于DeepSeek-V3-0324(81.1%81.1\%81.1%)和GPT-4.1(88.0%88.0\%88.0%)。在Multi-Challenge中,该模型在涉及冲突指令的多轮对话中达到54.1%54.1\%54.1%,超过DeepSeek-V3-0324(31.4%31.4\%31.4%)、GPT-4.1(36.4%36.4\%36.4%)和Claude-Opus-4(49.0%49.0\%49.0%)。这些结果表明,Kimi-K2-Instruct在单轮和多轮设置中都能将强大的事实知识与一致的指令遵循能力相结合,为实际应用的可靠部署提供了支持。
长文本和事实性任务。为了评估Kimi-K2-Instruct的事实性,我们采用了三个基准测试:FACTS Grounding(使用专有模型GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet衡量对提供文档的遵循程度);HHEM(通过开源HHEM-2.1-Open评估器评估摘要质量);以及FaithJudge(使用o3-mini作为评估器分析RAG任务中的忠实度)。Kimi-K2-Instruct在FACTS Grounding上得分为88.588.588.5,大幅领先所有开源竞争对手,甚至超过了专有的Gemini 2.5 Flash。在HHEM-2.1-Open上,它的幻觉率为1.1%1.1\%1.1%(表格中报告为111减去该比率,即98.998.998.9)。在FaithJudge的RAG任务中,幻觉率为7.4%7.4\%7.4%,表格一致性为92.692.692.6。在长文本能力方面,Kimi-K2-Instruct在DROP上超越了所有开源和专有模型(93.5%93.5\%93.5%),并在检索任务MRCR上超过DeepSeek-V3-0324(55.0%55.0\%55.0% vs 50.8%50.8\%50.8%)。对于长文本推理任务FRAMES和LongBench v2,Kimi-K2-Instruct(77.1%77.1\%77.1%,49.1%49.1\%49.1%)略落后于DeepSeek-V3-0324约2%2\%2%。
开放域评估。除了静态的封闭式基准测试外,我们还评估了模型在更接近实际使用的开放域、细微任务上的表现。
对于英文场景,我们采用了Arena-Hard-Auto v2.0基准测试,该测试使用LLM作为评估者协议来评估不同开放域提示下的生成质量[42]。这些评估涵盖了各种高难度提示,在研究界得到广泛认可。在Arena-Hard-Auto v2.0上,Kimi-K2-Instruct在困难提示(54.5%54.5\%54.5%)和创意写作任务(85.0%85.0\%85.0%)上均达到了最先进的胜率,超越了所有开源模型,并与GPT-4.1和Claude Sonnet等顶级专有系统相媲美。这些结果凸显了该模型在多样、无约束环境下处理复杂推理和细微生成的能力。
然而,Arena-Hard-Auto对中国特定任务的覆盖范围有限。为了弥补这一差距,我们开发了一个基于真实用户查询的内部保留基准测试。为确保评估的完整性,基准测试数据限制访问,从而消除了过拟合的风险。
如图11所示,Kimi-K2-Instruct在中国内部基准测试的所有比较中均表现出色。它以65.4%65.4\%65.4%的胜率超过ChatGPT-4o-latest,以64.6%64.6\%64.6%超过Claude Sonnet 4,以59.6%59.6\%59.6%超过DeepSeek-V3-0324。在所有情况下,失败率都很低(约17%17\%17%),表明Kimi-K2-Instruct很少落后。高胜率和稳定的优势证明了该模型在开放域中文任务上的强大能力。
除了控制评估外,我们还通过公众人工评估考虑了实际用户偏好。截至2025年7月17日,根据真实用户的300030003000多张盲票,Kimi-K2-Instruct在LMSYS Arena排行榜上位居开源模型之首,总体排名第五。与LLM作为评估者的协议不同,该排行榜反映了真实用户提交的多样提示上直接的人工偏好,为实际模型性能提供了补充视角。
Arena-Hard-Auto、我们的内部基准测试和LMSYS Arena的投票共同提供了对Kimi-K2-Instruct开放域能力的全面视角,表明该模型在英汉两种语言的实际用户体验中都是备受青睐的模型。
DQK-Clip不会降低模型质量
QK-Clip设计遵循最小干预原则:仅在必要时激活,并在训练稳定后停用。实证证据和分析均表明,其对模型质量的影响可忽略不计。
小规模消融实验我们训练了两个小规模模型,一个是具有0.5B激活参数和3B总参数的MoE模型,使用原始Muon;另一个是同样参数规模的模型,但使用MuonClip,并采用低裁剪阈值(τ=30)(\tau=30)(τ=30)。如图12所示,应用MuonClip对损失曲线的影响可忽略不计,这表明即使激进裁剪也不会影响MuonClip的收敛性或训练动态。这证明MuonClip是一种安全有效的方法,可在不降低模型性能的情况下约束注意力对数几率。此外,下游任务评估显示,性能没有出现统计学上的显著下降。这些结果共同证明,MuonClip是一种安全有效的方法,可在不损害模型质量的情况下约束注意力对数几率。
自停用机制在Kimi K2中,QK-Clip仅短暂激活:
初始70000步:12.7%的注意力头至少触发了一次QK-Clip,将SmaxS_{\mathrm{max}}Smax钳制为100。
· 70000步之后:所有注意力头在某个时刻都将SmaxS_{\mathrm{max}}Smax降低至100以下,使QK-Clip失效。
当QK-Clip激活时,它按注意力头(而非按层)应用,以尽量减少对其他注意力头的过度正则化。训练稳定后,QK-Clip停用,不再产生任何影响。
E 为什么Muon更容易出现对数几率爆炸
当训练过程中最大的softmax前注意力分数
Smax=maxi,j(qi⋅kj)S_{\mathrm{max}}=\operatorname*{max}_{i,j}\!\left(q_{i}\!\cdot k_{j}\right)Smax=i,jmax(qi⋅kj)
无限制增长时,就会出现对数几率爆炸。由于
∣qi⋅kj∣≤∥qi∥∥kj∥≤∥xi∥∥xj∥∥Wq∥∥Wk∥,|q_{i}\!\cdot\!k_{j}|\leq\|q_{i}\|\|k_{j}\|\leq\|x_{i}\|\|x_{j}\|\|\mathbf{W}_{q}\|\|\mathbf{W}_{k}\|,∣qi⋅kj∣≤∥qi∥∥kj∥≤∥xi∥∥xj∥∥Wq∥∥Wk∥,
且RMS-Norm使∥xi∥\|x_{i}\|∥xi∥和∥xj∥\|x_{j}\|∥xj∥保持有界,因此该现象主要由Wq\mathbf{W}_{q}Wq或Wk\mathbf{W}_{k}Wk的谱范数增长驱动。经验表明,Muon更容易出现对数几率爆炸。以下给出我们的假设。
更新的结构差异Muon通过msign操作生成权重更新;因此,更新矩阵的所有奇异值均相等——其有效秩为满。相比之下,Adam生成的典型更新矩阵的谱呈现偏态分布:少数大奇异值占主导地位,有效秩较低。Adam的这种低秩假设并非新发现;高阶muP也采用了同样的假设。
这种现象在160亿参数的Moonlight模型上得到了验证,该模型显示,与Adam训练的权重相比,Muon训练的权重具有更高的奇异值熵(即更高的有效秩),这证实了理论直觉。奇异值分解(SVD)公式设第t−1t-1t−1步的参数矩阵具有奇异值分解
Wt−1=∑iσiuivi⊤\mathbf{W}_{t-1}=\sum_{i}\sigma_{i}\,u_{i}v_{i}^{\top}Wt−1=i∑σiuivi⊤
我们将更新矩阵写为
ΔWt=∑jσˉuˉjvˉj⊤\Delta\mathbf{W}_{t}=\sum_{j}\bar{\sigma}\,\bar{u}_{j}\bar{v}_{j}^{\top}ΔWt=j∑σˉuˉjvˉj⊤
因此,下一步的参数更新为
Wt←∑iσiuivi⊤+∑iσˉuˉjvˉj⊤\mathbf{W}_{t}\gets\sum_{i}\sigma_{i}u_{i}v_{i}^{\top}+\sum_{i}\bar{\sigma}\,\bar{u}_{j}\bar{v}_{j}^{\top}Wt←i∑σiuivi⊤+i∑σˉuˉjvˉj⊤
在Muon中,由于权重和更新的有效秩均高于Adam,我们假设奇异向量对uivi⊤u_{i}v_{i}^{\top}uivi⊤与uˉjvˉj⊤\bar{u}_{j}\bar{v}_{j}^{\top}uˉjvˉj⊤对齐的概率更高。这可能会导致Wt\mathbf{W}_{t}Wt的相应奇异值相加增加。
注意力特有的放大效应注意力对数几率通过双线性形式计算
qi⋅ki=(xiWq)⋅(xiWk).q_{i}\cdot k_{i}=(x_{i}\mathbf{W}_{q})\cdot(x_{i}\mathbf{W}_{k}).qi⋅ki=(xiWq)⋅(xiWk).
乘积WqWk⊺\mathbf{W}_{q}\mathbf{W}_{k}^{\intercal}WqWk⊺使谱范数平方,因此任一矩阵的奇异值增加都会复合。因此,Muon扩大奇异值的倾向会转化为更高的对数几率爆炸风险。
F 通用强化学习K2评判标准
F.1核心评判标准
· 清晰度和相关性:评估回答是否简洁,同时全面解决用户意图。重点在于消除不必要的细节,与核心查询保持一致,并使用简洁的段落或紧凑的列表等高效格式。除非特别要求,否则应避免冗长的列举。当需要做出选择时,回答应明确提供单一、明确的答案。
) 对话流畅度和参与度:评估回答对自然流畅对话的贡献,这种对话超越了简单的问答。这包括保持连贯性、对主题表现出适当的参与度、提供相关观察或见解、在适当情况下建设性地引导对话、谨慎使用后续问题、优雅地处理假设性或个人类比查询,以及根据对话情境有效调整语气(例如,表现出同理心、正式、随意)。
客观且基于事实的互动:评估回答保持客观和基于事实的语气的能力,直接聚焦于用户请求的实质。评估标准包括避免元评论(分析查询的结构、主题组合、感知到的怪异之处或互动本身的性质)以及对用户或其输入的不当奉承或过度赞扬。优秀的回答应尊重用户但保持中立,优先提供直接、任务导向的帮助,而非对对话动态发表评论或试图通过赞美来讨好用户。
F.2规定性评判标准
初始赞扬:回答不得以赞美用户或问题开头(例如,“这是一个很好的问题”,“问得好!”)。
明确说明理由:任何解释回答为何优秀或如何成功满足用户请求的句子或从句。这与简单描述内容不同。
F.3 局限性
这一评估框架的一个潜在副作用是,即使存在模糊性或主观性,它也可能倾向于看似自信和坚定的回答。这源于当前评判标准的两个关键限制:
避免自我限定:规定性规则禁止自我评估、明确免责声明或含糊其辞的语言(例如,“这可能不准确”,“我可能错了”)。虽然这些短语可以体现认知谦逊,但往往被视为缺乏信息或表演性而受到惩罚。
偏好清晰和单一性:评判标准奖励用户寻求建议或解释时的直接、果断的回答。在复杂或开放式的场景中,这可能会抑制适当谨慎或多角度的回答。
因此,模型可能会偶尔在模糊性、细微差别或认知谦逊更为合适的领域过度强调确定性。该框架的未来迭代可能会纳入对校准不确定性的更精细处理。
G强化学习训练的引擎切换流水线
检查点引擎管理每个GPU上的三个等大小的设备缓冲区:一个用于加载卸载的模型参数的H2D缓冲区,以及两个用于GPU到GPU广播的IPC缓冲区。IPC缓冲区与推理引擎共享,使其能够直接访问相同的物理内存。这三个缓冲区使我们能够安排流水线中的三个步骤。
理论上的三阶段流水线。如图13a所示,引入了三阶段流水线。(1) H2D:最新权重的分片被异步复制到H2D缓冲区。(2) 广播:复制完成后,该分片将被复制到一个IPC缓冲区并广播到所有设备。(3) 重新加载:推理引擎同时从另一个IPC缓冲区加载参数。
由于PCIe饱和而采用的两阶段流水线。在NVIDIA H800集群上,同时进行的H2D和广播会使共享PCIe结构饱和,从而将三个阶段压缩为一个顺序过程(图13b)。因此,我们采用了更简单的两阶段方案(图13c):(1) 所有设备执行单次同步H2D传输。(2) 广播和重新加载并行进行。
两阶段流水线将受到多个同步H2D复制操作的限制。但在大规模设备中,模型将被分割为小分片,整个参数集可以在一次传输中装入H2D缓冲区,此时开销将消失。
通过重叠H2D、广播和重新加载权重,我们可以获得高带宽,以便将权重从训练引擎重新分片到所有推理引擎。