当前位置: 首页 > news >正文

上海AI实验室开源Intern VL3系列模型:整体文本性能优于 Qwen2.5 系列

InternVL3,这是一款先进的多模态大型语言模型 (MLLM) 系列,展现出卓越的整体性能。与 InternVL 2.5 相比,InternVL3 展现出卓越的多模态感知和推理能力,同时进一步扩展了其多模态能力,涵盖工具使用、GUI 代理、工业图像分析、3D 视觉感知等。此外,得益于原生多模态预训练,InternVL3 系列的整体文本性能甚至优于 Qwen2.5 系列(后者是 InternVL3 中语言组件的初始化部分)。

开源地址:https://huggingface.co/collections/OpenGVLab/internvl3
在这里插入图片描述

相关博客:https://internvl.github.io/blog/
在线体验:https://internvl.opengvlab.com/
在这里插入图片描述

模型架构:

如以下图表所示,InternVL3 保持了与 InternVL 2.5 及其前身 InternVL 1.5 和 2.0 相同的模型架构,遵循“ViT-MLP-LLM”范式。在这个新版本中,集成了一个全新增量预训练的 InternViT 与各种预训练的语言模型(包括 InternLM 3 和 Qwen 2.5),使用随机初始化的 MLP 投影器。
在这里插入图片描述

正如之前的版本,InternVL3应用了像素解混操作,将视觉标记的数量减少到原来的四分之一。此外,采用了与InternVL 1.5类似的动态分辨率策略,将图像分割成448×448像素的瓦片。从InternVL 2.0开始的关键区别在于,额外引入了对多图像和视频数据的支持。

值得注意的是,在InternVL3中,集成了可变视觉位置编码 (V2PE),它利用更小、更灵活的位置增量来处理视觉标记。得益于V2PE,InternVL3相比其前身在长上下文理解能力上表现得更好。

训练策略

原生多模态预训练

InternVL3提出了一种原生多模态预训练方法,将语言和视觉学习整合到一个单一的预训练阶段。 与先训练纯语言模型再适应以处理其他模态的标准范式不同,InternVL3的方法将多模态数据(例如,图像-文本、视频-文本或图像-文本交错序列)与大规模文本语料库交织在一起。这种统一的训练方案允许模型同时学习语言和多模态表示,最终增强其处理视觉-语言任务的能力,而无需单独的对齐或桥接模块。

监督微调

在这个阶段,InternVL2.5提出的随机JPEG压缩、平方损失重加权和多模态数据打包技术也在InternVL3系列中得到应用。 InternVL3的SFT阶段相比InternVL2.5的主要进步在于使用了更高质量和更多样化的训练数据。 具体来说,我们进一步扩展了用于工具使用、3D场景理解、GUI操作、长上下文任务、视频理解、科学图表、创意写作和多模态推理的训练样本。

混合偏好优化

在预训练和监督微调期间,模型被训练为根据先前的真实标记预测下一个标记。 然而,在推理过程中,模型基于自身的先前输出预测每个标记。 这种真实标记与模型预测标记之间的差异引入了分布偏移,这可能会损害模型的链式思维(CoT)推理能力。 为了解决这个问题,我们采用了MPO,通过正负样本提供的额外监督来使模型响应分布与真实分布对齐,从而提高推理性能。 具体来说,MPO的训练目标是 偏好损失 (\mathcal{L}{\text{p}})、 质量损失 (\mathcal{L}{\text{q}}) 和 生成损失 (\mathcal{L}{\text{g}}) 的组合, 可以表示如下:
在这里插入图片描述
其中 (w
{*}) 表示分配给每个损失组件的权重。

测试时间缩放

测试时间缩放已被证明是提升 LLM 和 MLLM 推理能力的有效方法。在本研究中,采用 Best-of-N 评估策略,并使用VisualPRM-8B作为评估模型,以选出最佳答案进行推理和数学评估。

多模态能力评估

在这里插入图片描述

多模态推理与数学

在这里插入图片描述

OCR、图表和文档理解

在这里插入图片描述

多图像与真实世界理解

在这里插入图片描述

综合多模式和幻觉评估

在这里插入图片描述

多模态多语言理解

在这里插入图片描述

视频理解

在这里插入图片描述

语言能力评估

在这里插入图片描述

总结

InternVL3-78B预计是InternVL系列的高阶版本,通过更大参数量、更优训练策略和扩展的模态支持,进一步提升多模态理解的通用性与专业性。其开源特性与高效部署能力,使其在学术研究与工业落地中具有重要价值。具体性能需参考官方发布的评测数据,但基于系列前代表现,可预期其在多模态任务中接近或超越主流商业模型。

相关文章:

  • maven编译jar踩坑[sqlite.db]
  • [福游宝——AI智能旅游信息查询平台]全栈AI项目-阶段一:Vite前端开荒
  • 【模块化拆解与多视角信息1】基础信息:隐藏的筛选规则——那些简历上没说出口的暗号
  • 使用 Visual Studio 2022 (VS2022) 编译 FreeCAD 1.0.0 的详细教程
  • Model Context Protocol (MCP) - 尝试创建和测试一下MCP Server
  • 探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并
  • swift菜鸟教程29-30(泛型,访问控制)
  • 文件上传基本原理靶场实现
  • SpringBoot(一)
  • 融合动态权重与抗刷机制的网文评分系统——基于优书网、IMDB与Reddit的混合算法实践
  • 【源码】SpringBoot源码分析
  • 301.找出3位偶数
  • [ctfshow web入门] web37
  • 【软考系统架构设计师】系统配置与性能评价
  • 使用Python建模量子隧穿
  • String类基本使用
  • SQL基础入门:从CRUD到JOIN再到索引(通俗易懂版)
  • LeetCode 3272.统计好整数的数目:枚举+排列组合+哈希表
  • Backtrader从0到1——Data Feeds【入门篇】
  • 数字电子技术基础(四十三)——加法器
  • 交互 网站/小红书软文推广
  • 建立个人网站代码/自媒体平台注册官网下载
  • 商城网站建设清单/百度一下你就知道官网下载安装
  • 做网站大概要多久/站长工具怎么关掉
  • 镇江网站建设网站/卖网站链接
  • 同一个公司可以做几个网站/网站seo需要用到哪些工具