当前位置: 首页 > wzjs >正文

郑州人才网站北京seo技术

郑州人才网站,北京seo技术,网站建设与网页制作技术,学做缝纫的网站一、引言 Kimi-VL 是一款开源的视觉语言模型(VLM),旨在提供高效的多模态推理、长文本理解和强大的代理能力。它在语言解码器中仅激活 2.8B 参数(Kimi-VL-A3B),却能在多个具有挑战性的领域展现强大的性能&a…

一、引言

Kimi-VL 是一款开源的视觉语言模型(VLM),旨在提供高效的多模态推理、长文本理解和强大的代理能力。它在语言解码器中仅激活 2.8B 参数(Kimi-VL-A3B),却能在多个具有挑战性的领域展现强大的性能,包括多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等。

二、模型架构

Kimi-VL 的架构由三个部分组成:原生分辨率视觉编码器(MoonViT)、MLP 投影器和混合专家(MoE)语言模型。

MoonViT

MoonViT 是 Kimi-VL 的视觉编码器,设计用于原生处理不同分辨率的图像,无需复杂的子图像分割和拼接操作。它采用 NaViT 的打包方法,将图像分割成块,展平并顺序拼接成 1D 序列,从而与语言模型共享相同的核心计算操作符和优化。

MLP 投影器

MLP 投影器用于连接视觉编码器(MoonViT)和语言模型。它首先使用像素洗牌操作压缩 MoonViT 提取的图像特征的空间维度,然后将像素洗牌后的特征输入到两层 MLP 中,将其投影到语言模型嵌入的维度。

MoE 语言模型

Kimi-VL 的语言模型使用 Moonlight 模型,这是一个具有 2.8B 激活参数、16B 总参数的 MoE 语言模型。它从处理了 5.2T 纯文本数据的 Moonlight 预训练阶段的一个中间检查点初始化,然后继续使用总计 2.3T 令牌的多模态和纯文本数据进行预训练。

三、方法论

Kimi-VL 的预训练包括 ViT 训练阶段和三个联合训练阶段(预训练、冷却和长文本上下文激活),总共消耗 4.4T 令牌。

ViT 训练阶段

MoonViT 在图像-文本对上进行训练,文本组件包括图像替代文本、合成标题、定位边界框和 OCR 文本。训练采用 SigLIP 损失和标题生成的交叉熵损失。

联合预训练阶段

在联合预训练阶段,模型使用纯文本数据和多种多模态数据进行训练。初始步骤仅使用语言数据,随后多模态数据的比例逐渐增加。

联合冷却阶段

冷却阶段继续使用高质量的语言和多模态数据集对模型进行训练,以确保卓越的性能。在数学、知识和代码领域,采用混合方法:使用选定的预训练子集并增强合成内容。

联合长文本上下文激活阶段

在最终的预训练阶段,模型的上下文长度从 8192(8K)扩展到 131072(128K),RoPE 嵌入的逆频率从 50,000 重置为 800,000。

四、数据构建

Kimi-VL 的多模态预训练语料库设计用于提供高质量的数据,使模型能够处理和理解来自多种模态的信息,包括文本、图像和视频。

预训练数据

预训练数据包括标题数据、图像-文本交错数据、OCR 数据、知识数据、视频数据和代理数据。

指令数据

指令数据主要用于增强模型的对话能力和指令遵循能力。通过人类标注构建种子数据集,然后使用种子模型生成多个响应,最后由标注者排名并精炼顶级响应。

推理数据

推理数据用于激活和增强模型的多模态推理能力。通过开发类似于拒绝采样的生成管道和提示工程,收集和合成高质量的长 CoT 数据。

五、评估

Kimi-VL 在多个基准测试中与最先进的视觉语言模型进行了比较评估。

与最先进模型的比较

尽管 Kimi-VL 的参数效率更高(激活参数 2.8B+0.4B),但在多个关键领域展示了与更大模型(如 GPT-4o、Llama-3.2-11B-Inst. 和 Gemma3-12B-IT)相当或更优的性能。

学术问题

Kimi-VL 在大学水平的学术基准测试中表现出色,在 MMMU 验证集上达到 57.0% 的分数,超过了 DeepSeek-VL2 和 Qwen2.5-VL-7B。

一般视觉能力

Kimi-VL 在多个基准测试中展现出强大的一般视觉理解能力,在 MMBench-EN-v1.1 上达到 83.1% 的准确率,与 GPT-4o 表现相当。

数学推理

Kimi-VL 在数学推理方面表现出色,在 MathVista 基准测试中达到 68.7% 的准确率,超过了所有比较模型。

文档理解和 OCR

Kimi-VL 在文档理解和 OCR 任务中表现出色,在 InfoVQA 上达到 83.2% 的准确率,超过了 GPT-4o 和 DeepSeek-VL2。

代理定位和多轮代理交互

Kimi-VL 在代理任务中表现出色,在 ScreenSpot-V2 上达到 92.0% 的准确率,在 OSWorld 上达到 8.22% 的准确率,超过了 GPT-4o 和其他开源模型。

长文档和长视频理解

Kimi-VL 在长文档和长视频理解方面表现出色,在 MMLongBench-Doc 上达到 34.7% 的准确率,在 Video-MME 上达到 72.6% 的准确率。

自我中心和细粒度视频感知

Kimi-VL 在更细致的视频感知任务中表现出色,在 EgoSchema 全集上达到 78.5% 的准确率,在 VSI-Bench 上达到 37.4% 的准确率,在 TOMATO 上达到 31.7% 的准确率。

六、推理扩展

Kimi-VL 的推理扩展版本 Kimi-VL-Thinking 通过长 CoT 激活和强化学习,显著提高了性能。在 MathVista 上提高了 2.6%,在 MMMU 上提高了 4.7%,在 MathVision 上提高了 15.4%。

七、结论、局限性和未来工作

Kimi-VL 是一款设计平衡的 VLM,涵盖了多模态和纯文本预训练/后训练,基于 MoE 架构实现可扩展的效率。它在长文本和视频中的精确检索以及在超高分辨率视觉任务中的高精度低计算开销方面表现出色。此外,Kimi-VL-Thinking 有效地实现了复杂图像和视频推理中的长链推理。

然而,Kimi-VL 仍面临一些挑战,包括模型规模限制、推理能力尚未达到理论上限以及长上下文能力不足。未来的工作将通过扩大模型规模、扩展预训练数据和增强后训练算法来解决这些挑战。

http://www.dtcms.com/wzjs/528513.html

相关文章:

  • 如何利用视频网站做数字营销推广什么软件可以发布推广信息
  • 网站优化北京多少钱刷推广链接的网站
  • 网页免费下载seo推广系统
  • 网站如何做问卷调查问卷产品软文
  • 建站仅向商家提供技术服务江西百度推广开户多少钱
  • 为某公司或企业做的门户网站seo 的作用和意义
  • 深圳画册设计排版站长之家seo一点询
  • wordpress 插件 扫描seo最新快速排名
  • WordPress挖矿主题泰安网站优化公司
  • 乐清网站建设服务seo搜索引擎排名优化
  • 鼠标垫东莞网站建设在线葡京在线葡京
  • 建网站做cpa网站统计数据分析
  • 合肥城乡建设委员会的网站web网页
  • 网站建设营销词百度ai搜索引擎
  • bootstrap做购物网站seo整站优化费用
  • 企业网站建设的公司有哪些互联网平台
  • 做视频网站什么平台好广告制作
  • 阿里轻云wordpress常州seo建站
  • wordpress 亚马逊插件长沙关键词优化方法
  • 团购网站做摄影seo搜索引擎优化期末及答案
  • 公安网站备案需要注意什么广州百度推广外包
  • 做色流网站要注意什么问题讯展网站优化推广
  • 建立带数据库的网站最新百度快速排名技术
  • 怎么下载网站程序百度广告投放价格表
  • 企业网站该怎么做免费网站谁有靠谱的
  • 网站在哪里购买企业网站有哪些功能
  • 旅游网站模块报价英文网站建设
  • 龙江网站建设公司郑州网站建设优化
  • 淘宝网站建设教程视频西安网站seo价格
  • 个人网站建设模板简洁图片优化网站搜索排名