当前位置: 首页 > wzjs >正文

邢台企业网站制作建设百度搜索引擎入口

邢台企业网站制作建设,百度搜索引擎入口,商城网站建设php,成都 网站建设公司哪家好一、引言 Kimi-VL 是一款开源的视觉语言模型(VLM),旨在提供高效的多模态推理、长文本理解和强大的代理能力。它在语言解码器中仅激活 2.8B 参数(Kimi-VL-A3B),却能在多个具有挑战性的领域展现强大的性能&a…

一、引言

Kimi-VL 是一款开源的视觉语言模型(VLM),旨在提供高效的多模态推理、长文本理解和强大的代理能力。它在语言解码器中仅激活 2.8B 参数(Kimi-VL-A3B),却能在多个具有挑战性的领域展现强大的性能,包括多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等。

二、模型架构

Kimi-VL 的架构由三个部分组成:原生分辨率视觉编码器(MoonViT)、MLP 投影器和混合专家(MoE)语言模型。

MoonViT

MoonViT 是 Kimi-VL 的视觉编码器,设计用于原生处理不同分辨率的图像,无需复杂的子图像分割和拼接操作。它采用 NaViT 的打包方法,将图像分割成块,展平并顺序拼接成 1D 序列,从而与语言模型共享相同的核心计算操作符和优化。

MLP 投影器

MLP 投影器用于连接视觉编码器(MoonViT)和语言模型。它首先使用像素洗牌操作压缩 MoonViT 提取的图像特征的空间维度,然后将像素洗牌后的特征输入到两层 MLP 中,将其投影到语言模型嵌入的维度。

MoE 语言模型

Kimi-VL 的语言模型使用 Moonlight 模型,这是一个具有 2.8B 激活参数、16B 总参数的 MoE 语言模型。它从处理了 5.2T 纯文本数据的 Moonlight 预训练阶段的一个中间检查点初始化,然后继续使用总计 2.3T 令牌的多模态和纯文本数据进行预训练。

三、方法论

Kimi-VL 的预训练包括 ViT 训练阶段和三个联合训练阶段(预训练、冷却和长文本上下文激活),总共消耗 4.4T 令牌。

ViT 训练阶段

MoonViT 在图像-文本对上进行训练,文本组件包括图像替代文本、合成标题、定位边界框和 OCR 文本。训练采用 SigLIP 损失和标题生成的交叉熵损失。

联合预训练阶段

在联合预训练阶段,模型使用纯文本数据和多种多模态数据进行训练。初始步骤仅使用语言数据,随后多模态数据的比例逐渐增加。

联合冷却阶段

冷却阶段继续使用高质量的语言和多模态数据集对模型进行训练,以确保卓越的性能。在数学、知识和代码领域,采用混合方法:使用选定的预训练子集并增强合成内容。

联合长文本上下文激活阶段

在最终的预训练阶段,模型的上下文长度从 8192(8K)扩展到 131072(128K),RoPE 嵌入的逆频率从 50,000 重置为 800,000。

四、数据构建

Kimi-VL 的多模态预训练语料库设计用于提供高质量的数据,使模型能够处理和理解来自多种模态的信息,包括文本、图像和视频。

预训练数据

预训练数据包括标题数据、图像-文本交错数据、OCR 数据、知识数据、视频数据和代理数据。

指令数据

指令数据主要用于增强模型的对话能力和指令遵循能力。通过人类标注构建种子数据集,然后使用种子模型生成多个响应,最后由标注者排名并精炼顶级响应。

推理数据

推理数据用于激活和增强模型的多模态推理能力。通过开发类似于拒绝采样的生成管道和提示工程,收集和合成高质量的长 CoT 数据。

五、评估

Kimi-VL 在多个基准测试中与最先进的视觉语言模型进行了比较评估。

与最先进模型的比较

尽管 Kimi-VL 的参数效率更高(激活参数 2.8B+0.4B),但在多个关键领域展示了与更大模型(如 GPT-4o、Llama-3.2-11B-Inst. 和 Gemma3-12B-IT)相当或更优的性能。

学术问题

Kimi-VL 在大学水平的学术基准测试中表现出色,在 MMMU 验证集上达到 57.0% 的分数,超过了 DeepSeek-VL2 和 Qwen2.5-VL-7B。

一般视觉能力

Kimi-VL 在多个基准测试中展现出强大的一般视觉理解能力,在 MMBench-EN-v1.1 上达到 83.1% 的准确率,与 GPT-4o 表现相当。

数学推理

Kimi-VL 在数学推理方面表现出色,在 MathVista 基准测试中达到 68.7% 的准确率,超过了所有比较模型。

文档理解和 OCR

Kimi-VL 在文档理解和 OCR 任务中表现出色,在 InfoVQA 上达到 83.2% 的准确率,超过了 GPT-4o 和 DeepSeek-VL2。

代理定位和多轮代理交互

Kimi-VL 在代理任务中表现出色,在 ScreenSpot-V2 上达到 92.0% 的准确率,在 OSWorld 上达到 8.22% 的准确率,超过了 GPT-4o 和其他开源模型。

长文档和长视频理解

Kimi-VL 在长文档和长视频理解方面表现出色,在 MMLongBench-Doc 上达到 34.7% 的准确率,在 Video-MME 上达到 72.6% 的准确率。

自我中心和细粒度视频感知

Kimi-VL 在更细致的视频感知任务中表现出色,在 EgoSchema 全集上达到 78.5% 的准确率,在 VSI-Bench 上达到 37.4% 的准确率,在 TOMATO 上达到 31.7% 的准确率。

六、推理扩展

Kimi-VL 的推理扩展版本 Kimi-VL-Thinking 通过长 CoT 激活和强化学习,显著提高了性能。在 MathVista 上提高了 2.6%,在 MMMU 上提高了 4.7%,在 MathVision 上提高了 15.4%。

七、结论、局限性和未来工作

Kimi-VL 是一款设计平衡的 VLM,涵盖了多模态和纯文本预训练/后训练,基于 MoE 架构实现可扩展的效率。它在长文本和视频中的精确检索以及在超高分辨率视觉任务中的高精度低计算开销方面表现出色。此外,Kimi-VL-Thinking 有效地实现了复杂图像和视频推理中的长链推理。

然而,Kimi-VL 仍面临一些挑战,包括模型规模限制、推理能力尚未达到理论上限以及长上下文能力不足。未来的工作将通过扩大模型规模、扩展预训练数据和增强后训练算法来解决这些挑战。


文章转载自:

http://MQxcMNxj.drhbk.cn
http://WnRd1ucV.drhbk.cn
http://zd2pFbNA.drhbk.cn
http://2tT6ITxc.drhbk.cn
http://fIqlWZw5.drhbk.cn
http://fZqUI8ff.drhbk.cn
http://R3XZPWsc.drhbk.cn
http://oFNThKmg.drhbk.cn
http://8kyLLXcI.drhbk.cn
http://Dm9hQ8RG.drhbk.cn
http://Gl2T2LCQ.drhbk.cn
http://i625JupA.drhbk.cn
http://ShozvSF2.drhbk.cn
http://uzgg38pV.drhbk.cn
http://ZqBPOPMQ.drhbk.cn
http://Ygku0KBU.drhbk.cn
http://Dpvq5EKf.drhbk.cn
http://PoxuG5ZO.drhbk.cn
http://YcWKs6aT.drhbk.cn
http://wannH1wI.drhbk.cn
http://SteK3VtS.drhbk.cn
http://9vJ5pUyh.drhbk.cn
http://6xRunhsa.drhbk.cn
http://xdO6FNn8.drhbk.cn
http://0REAi93c.drhbk.cn
http://4eYc8qBt.drhbk.cn
http://8XxMrT2x.drhbk.cn
http://3jv6K4CJ.drhbk.cn
http://tFWhX1Mk.drhbk.cn
http://QDwdSD8D.drhbk.cn
http://www.dtcms.com/wzjs/697968.html

相关文章:

  • 东莞做网站公司首选!如何自己建个网站
  • 怎么用自己电脑做网站服务器吗公司网站建设方案建议
  • 网站建设详细教程视频教程网页设计效果图分析
  • 建设网站火车票预订做挂网站吗
  • 有了域名就可以做网站了吗介绍常见的网络营销方式
  • 响应式网站设计欣赏软件开发制作公司
  • 门户网站阳光警务执法办案查询模版之家
  • ps做网站难吗房产信息网站
  • 网页设计模板网站免费下载珠三角做网站
  • 什么是网站版面布局视频网站用虚拟主机
  • php建设网站怎么用中小型网站建设与管理
  • 内衣网站建设推广温州知名网站
  • 怎样可以开网站温州招聘网
  • 常宁城乡建设局网站查询网站开发的技术手段有哪些
  • 网站怎么做下载网页代码过年做啥网站致富
  • 邯郸做wap网站建设wordpress嵌入百度地图可以导航
  • 新民企业自助建站wordpress当前时间
  • 建个人网站能赚钱吗百度站长工具官网
  • 外文网站字体如何把代码wordpress
  • 南宁网站建设贴吧怎么写网站头部和尾部
  • 东莞市微网站官方网站手工艺品网站建设
  • 网站搜索要怎么做seo代码优化工具
  • 食品网站设计欣赏dw做网站导航
  • asp模版网站如何做优化外贸平台有哪些是免费的直接可以发布售卖产品的
  • 怎么在百度网站上做自己的网站选择电商网站建设
  • 网站制作公司获取客户网页设计代码实战
  • 江门网站建设方案策划在线注册网站
  • 东莞网站建设完整wordpress数据库地址
  • 群晖wordpress建站教程wordpress文章时间标签
  • 做网站手机端如何更新交易平台网站怎么做