当前位置：首页 > news >正文

Kimi k1.5：继Deepseek R1 后多模态 AI 的新标杆

news 2025/7/2 8:57:10

Kimi 访问地址： https://kimi.moonshot.cn/

在人工智能领域，Kimi k1.5 的发布无疑是一颗璀璨的新星，它以卓越的性能和创新的技术，重新定义了多模态大型语言模型（LLM）的标杆。

一、Kimi k1.5 是什么？

Kimi k1.5 是由 MoonShot AI 研发的最新多模态大型语言模型，它运用了强化学习（RL）技术进行训练，旨在文本、视觉和编码等多个领域的各类推理任务中展现卓越性能。

二、Kimi k1.5 的核心亮点

（一）强化学习（RL）训练

Kimi k1.5 借助强化学习来提升推理能力。与传统依赖静态数据集的模型不同，它能够在探索过程中从奖励机制里学习新知识。通过长上下文扩展和改进的策略优化方法，Kimi k1.5 建立了一个简单而有效的强化学习框架，无需依赖复杂的技术，如蒙特卡洛树搜索、价值函数和过程奖励模型。

（二）长上下文扩展

Kimi k1.5 将强化学习中的上下文窗口扩展到 128k，随着上下文长度的增加，模型的性能持续提升。这是通过使用部分轨迹（partial rollouts）来提高训练效率实现的，即通过重用之前轨迹的大块内容来生成新的轨迹，避免从头开始重新生成新轨迹的成本。

（三）改进的策略优化

Kimi k1.5 采用基于长推理链（long-CoT）的强化学习公式，并使用在线镜像下降算法（online mirror descent）的变体进行稳健的策略优化。此外，还通过有效的采样策略、长度惩罚和数据配方优化来进一步改进算法，使模型在训练过程中更加高效和稳定。

（四）多模态能力

Kimi k1.5 同时在文本和视觉数据上进行联合训练，具备同时处理两种模态信息的能力，使其能够更好地理解和生成包含文本和图像的内容。

三、Kimi k1.5 的性能表现

（一）长链推理（Long-CoT）性能

在数学推理方面，Kimi k1.5 在 MATH-500 上达到 96.2 的 EM 分数，在 AIME 2024 上达到 77.5 的 Pass@1 分数，与 OpenAI 的 o1 模型相当。在编程能力上，Kimi k1.5 在 Codeforces 上达到 94 百分位，表现相当亮眼。在视觉推理方面，Kimi k1.5 在 MathVista 上达到 74.9 的 Pass@1 分数。

（二）短链推理（Short-CoT）性能

Kimi k1.5 通过长链到短链推理技术（Long2short RL），显著提高了短链推理模型的性能和 token 效率。例如，在 AIME 上达到 60.8 的 Pass@1 分数，在 MATH-500 上达到 94.6 的 EM 分数，在 LiveCodeBench 上达到 47.3 的 Pass@1 分数，大幅领先于 GPT-4o 和 Claude Sonnet 3.5 等模型。

四、与其他 AI 大模型的性能对比

（一）与 DeepSeek-V3 的对比

项目	DeepSeek-V3	Kimi k1.5
模型架构	6710 亿参数，多头潜意力（MLA）和 DeepSeekMoE 架构	多模态，长文本上下文扩展（128k），改进的策略优化方法
训练策略	14.8 万亿标记预训练，监督微调 + 强化学习	长文本上下文扩展，部分轨迹回放，课程学习和优先采样
性能表现	知识问答接近国际顶尖模型，长文本处理超越其他模型，代码生成和数学能力领先	长链推理和短链推理表现出色，数学推理和编程能力与 OpenAI o1 相当，视觉推理能力强

（二）与 OpenAI o1 的对比

项目	DeepSeek-V3	Kimi k1.5	OpenAI o1
模型架构	6710 亿参数，多头潜在注意力（MLA）和 DeepSeekMoE 架构	多模态，长文本上下文扩展（128k），改进的策略优化方法	基于强化学习的内化思维链学习，支持长上下文处理
训练策略	14.8 万亿标记预训练，监督微调 + 强化学习	长文本上下文扩展，部分轨迹回放，课程学习和优先采样	强化学习 + 内化思维链，训练时间长，计算资源需求高
性能表现	知识问答接近国际顶尖模型，长文本处理超越其他模型，代码生成和数学能力领先	长链推理和短链推理表现出色，数学推理和编程能力与 OpenAI o1 相当，视觉推理能力强	在复杂推理任务上表现卓越，数学推理和多模态处理能力出色