月之暗面视觉模型(Kimi-VL)论文速读
一、引言
Kimi-VL 是一款开源的视觉语言模型(VLM),旨在提供高效的多模态推理、长文本理解和强大的代理能力。它在语言解码器中仅激活 2.8B 参数(Kimi-VL-A3B),却能在多个具有挑战性的领域展现强大的性能,包括多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等。
二、模型架构
Kimi-VL 的架构由三个部分组成:原生分辨率视觉编码器(MoonViT)、MLP 投影器和混合专家(MoE)语言模型。
MoonViT
MoonViT 是 Kimi-VL 的视觉编码器,设计用于原生处理不同分辨率的图像,无需复杂的子图像分割和拼接操作。它采用 NaViT 的打包方法,将图像分割成块,展平并顺序拼接成 1D 序列,从而与语言模型共享相同的核心计算操作符和优化。
MLP 投影器
MLP 投影器用于连接视觉编码器(MoonViT)和语言模型。它首先使用像素洗牌操作压缩 MoonViT 提取的图像特征的空间维度,然后将像素洗牌后的特征输入到两层 MLP 中,将其投影到语言模型嵌入的维度。
MoE 语言模型
Kimi-VL 的语言模型使用 Moonlight 模型,这是一个具有 2.8B 激活参数、16B 总参数的 MoE 语言模型。它从处理了 5.2T 纯文本数据的 Moonlight 预训练阶段的一个中间检查点初始化,然后继续使用总计 2.3T 令牌的多模态和纯文本数据进行预训练。
三、方法论
Kimi-VL 的预训练包括 ViT 训练阶段和三个联合训练阶段(预训练、冷却和长文本上下文激活),总共消耗 4.4T 令牌。
ViT 训练阶段
MoonViT 在图像-文本对上进行训练,文本组件包括图像替代文本、合成标题、定位边界框和 OCR 文本。训练采用 SigLIP 损失和标题生成的交叉熵损失。
联合预训练阶段
在联合预训练阶段,模型使用纯文本数据和多种多模态数据进行训练。初始步骤仅使用语言数据,随后多模态数据的比例逐渐增加。
联合冷却阶段
冷却阶段继续使用高质量的语言和多模态数据集对模型进行训练,以确保卓越的性能。在数学、知识和代码领域,采用混合方法:使用选定的预训练子集并增强合成内容。
联合长文本上下文激活阶段
在最终的预训练阶段,模型的上下文长度从 8192(8K)扩展到 131072(128K),RoPE 嵌入的逆频率从 50,000 重置为 800,000。
四、数据构建
Kimi-VL 的多模态预训练语料库设计用于提供高质量的数据,使模型能够处理和理解来自多种模态的信息,包括文本、图像和视频。
预训练数据
预训练数据包括标题数据、图像-文本交错数据、OCR 数据、知识数据、视频数据和代理数据。
指令数据
指令数据主要用于增强模型的对话能力和指令遵循能力。通过人类标注构建种子数据集,然后使用种子模型生成多个响应,最后由标注者排名并精炼顶级响应。
推理数据
推理数据用于激活和增强模型的多模态推理能力。通过开发类似于拒绝采样的生成管道和提示工程,收集和合成高质量的长 CoT 数据。
五、评估
Kimi-VL 在多个基准测试中与最先进的视觉语言模型进行了比较评估。
与最先进模型的比较
尽管 Kimi-VL 的参数效率更高(激活参数 2.8B+0.4B),但在多个关键领域展示了与更大模型(如 GPT-4o、Llama-3.2-11B-Inst. 和 Gemma3-12B-IT)相当或更优的性能。
学术问题
Kimi-VL 在大学水平的学术基准测试中表现出色,在 MMMU 验证集上达到 57.0% 的分数,超过了 DeepSeek-VL2 和 Qwen2.5-VL-7B。
一般视觉能力
Kimi-VL 在多个基准测试中展现出强大的一般视觉理解能力,在 MMBench-EN-v1.1 上达到 83.1% 的准确率,与 GPT-4o 表现相当。
数学推理
Kimi-VL 在数学推理方面表现出色,在 MathVista 基准测试中达到 68.7% 的准确率,超过了所有比较模型。
文档理解和 OCR
Kimi-VL 在文档理解和 OCR 任务中表现出色,在 InfoVQA 上达到 83.2% 的准确率,超过了 GPT-4o 和 DeepSeek-VL2。
代理定位和多轮代理交互
Kimi-VL 在代理任务中表现出色,在 ScreenSpot-V2 上达到 92.0% 的准确率,在 OSWorld 上达到 8.22% 的准确率,超过了 GPT-4o 和其他开源模型。
长文档和长视频理解
Kimi-VL 在长文档和长视频理解方面表现出色,在 MMLongBench-Doc 上达到 34.7% 的准确率,在 Video-MME 上达到 72.6% 的准确率。
自我中心和细粒度视频感知
Kimi-VL 在更细致的视频感知任务中表现出色,在 EgoSchema 全集上达到 78.5% 的准确率,在 VSI-Bench 上达到 37.4% 的准确率,在 TOMATO 上达到 31.7% 的准确率。
六、推理扩展
Kimi-VL 的推理扩展版本 Kimi-VL-Thinking 通过长 CoT 激活和强化学习,显著提高了性能。在 MathVista 上提高了 2.6%,在 MMMU 上提高了 4.7%,在 MathVision 上提高了 15.4%。
七、结论、局限性和未来工作
Kimi-VL 是一款设计平衡的 VLM,涵盖了多模态和纯文本预训练/后训练,基于 MoE 架构实现可扩展的效率。它在长文本和视频中的精确检索以及在超高分辨率视觉任务中的高精度低计算开销方面表现出色。此外,Kimi-VL-Thinking 有效地实现了复杂图像和视频推理中的长链推理。
然而,Kimi-VL 仍面临一些挑战,包括模型规模限制、推理能力尚未达到理论上限以及长上下文能力不足。未来的工作将通过扩大模型规模、扩展预训练数据和增强后训练算法来解决这些挑战。