当前位置: 首页 > news >正文

【AI论文】视觉拼图式微调可提升多模态大语言模型性能

摘要:基于强化学习的微调方法近期已成为增强多模态大语言模型(MLLMs)对齐能力与推理能力的有效范式。尽管以视觉为中心的微调对于提升MLLMs对视觉信号的内在理解至关重要,但当前微调范式仍以文本为主导——密集的视觉输入仅被用于提取稀疏线索以支持基于文本的推理。尽管已有少数研究尝试向这一方向探索,但这些方法往往仍依赖文本作为中间媒介,或引入额外的视觉生成模块。本研究提出Visual Jigsaw,一种通用的自监督微调框架,旨在强化MLLMs的视觉理解能力。该框架通过构建通用排序任务实现:将视觉输入分割、打乱后,要求模型以自然语言形式生成正确排列顺序以重构视觉信息。这一设计天然契合基于可验证奖励的强化学习(RLVR),无需引入额外视觉生成组件,且无需任何标注即可自动获取监督信号。我们在图像、视频及三维数据三种视觉模态上验证了Visual Jigsaw的有效性。大量实验表明,该方法能显著提升模型的细粒度感知、时序推理及三维空间理解能力。本研究揭示了自监督视觉中心任务在MLLMs微调中的潜力,旨在为视觉中心前置任务设计提供进一步的研究启示。项目主页:Github。Huggingface链接:Paper page,论文链接:2509.25190

研究背景和目的

研究背景

随着人工智能技术的快速发展,多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉和语言任务中取得了显著进展。

这些模型通过整合视觉和语言信息,实现了对复杂场景的理解和推理。然而,现有的MLLMs在视觉理解方面仍存在不足,尤其是在处理精细粒度感知、时间推理和三维空间理解等任务时表现欠佳。传统的后训练方法主要依赖于文本中心的强化学习(Reinforcement Learning from Verifiable Reward, RLVR),这些方法虽然增强了模型的推理能力,但往往忽视了视觉信号本身的内在理解。此外,一些方法尝试通过引入视觉生成组件来改进视觉理解,但这需要修改模型架构并增加额外的训练目标。

在此背景下,如何通过一种轻量级且与现有模型架构兼容的方法来增强MLLMs的视觉理解能力,成为了一个亟待解决的问题。

自我监督学习(Self-supervised Learning, SSL)作为一种无需人工标注数据的学习方法,在视觉表示学习中表现出色。然而,传统的SSL方法主要关注于重构或判别任务,这些任务通常需要像素级的保真度,可能不是增强MLLMs视觉理解能力的最优策略。

研究目的

本研究旨在提出一种新型的自我监督后训练框架——Visual Jigsaw,通过解决视觉拼图任务来增强MLLMs的视觉理解能力。具体目标包括:

  1. 增强视觉理解:通过Visual Jigsaw任务,提升MLLMs在精细粒度感知、时间推理和三维空间理解等方面的能力。
  2. 无缝集成:设计一种无需修改现有MLLMs架构或输出格式的后训练方法,实现与现有模型的无缝集成。
  3. 广泛适用性:验证Visual Jigsaw框架在图像、视频和三维数据等多种视觉模态上的有效性和通用性。

研究方法

1. Visual Jigsaw任务设计

Visual Jigsaw任务被设计为一种通用的排序任务,其中视觉输入被分割、打乱,模型需要通过自然语言输出正确的排列顺序。具体包括:

  • 图像拼图(Image Jigsaw):将输入图像分割成非重叠的块,打乱后让模型预测正确的空间排列顺序。
  • 视频拼图(Video Jigsaw):将视频沿时间轴分割成多个片段,打乱后让模型预测原始的时间顺序。
  • 三维拼图(3D Jigsaw):针对三维数据,通过采样具有不同深度值的点并打乱,让模型预测正确的深度顺序。

2. 强化学习后训练

采用强化学习从可验证奖励(RLVR)框架进行后训练,通过与环境的交互来优化模型的政策网络。在每个时间步,模型生成一个排列顺序,并通过与真实顺序的比较获得奖励。设计奖励函数以鼓励模型生成正确的排列顺序,并引入折扣因子以奖励部分正确的排列。

3. 实验设置

  • 数据集:使用COCO图像数据集、LLaVA-Video视频数据集和ScanNet三维数据集进行实验。
  • 模型选择:以Qwen2.5-VL-7B-Instruct作为基础MLLM,采用GRPO算法进行后训练。
  • 评估指标:在图像、视频和三维数据的视觉中心基准测试集上评估模型性能,包括精细粒度感知、单目空间理解、组合视觉理解、时间理解和三维空间推理等方面。

研究结果

1. 图像拼图任务结果

在图像拼图任务中,经过后训练的模型在多个视觉中心基准测试集上表现出显著改进。

特别是在MMVP、MMStar精细粒度感知子集和MMBench等基准上,模型性能提升了6.00%至6.06%。这表明,解决图像拼图任务能够增强模型的精细粒度感知能力。

2. 视频拼图任务结果

在视频拼图任务中,模型在所有评估基准上的表现均有所提升,特别是在需要时间方向理解的视频片段重组任务上表现尤为突出。。。


这表明,通过解决视频拼图任务,模型能够更好地捕捉视频帧之间的时间顺序和空间关系,提高了模型对视频内容的整体理解能力。

3. 视频拼图任务结果

  • 3D拼图任务结果
    • 在3D拼图任务中,模型在视频理解任务上的表现同样有所提升。特别是在视频片段重组任务中,模型需要从打乱的视频片段中恢复出正确的空间布局和结构,这对模型在视频理解任务上的表现尤为重要。。。

4. 三维拼图任务结果

  • 在视频拼图任务中,模型在三维拼图任务上的表现相对较弱。这可能反映出模型在处理复杂视频内容时的局限性,尤其是在需要精细粒度感知和结构理解方面。

研究局限

1. 未来研究方向

  • 1. 改进统一模型的训练策略
    • 改进RL后训练方法(如SFT、GRPO等),以提升模型在视频理解任务上的表现。。。。

3. 探索更广泛的自我监督任务设计

  • 导词任务设计时,应确保任务分解的透明度、公平性和可解释性。。。

http://www.dtcms.com/a/446783.html

相关文章:

  • 0、C语言基础——基本认识
  • C# 调用yolov11 onnx 后处理关注点
  • 做视频解析网站违法不品牌建设部门的规章制度
  • 建筑设计地图网站桐乡app开发
  • Linux的系统调用是怎么样运行的
  • 备案 网站名称 修改河北建设安装工程有限公司怎么样
  • 【2026计算机毕业设计】基于jsp的药店管理系统
  • 做的网站在百度找不到wordpress网页排版插件
  • 【高并发服务器】二、时间轮定时器设计与实现
  • 【操作系统】多线程
  • 信阳seo优化seo有些什么关键词
  • Giants Shoulder - Hyrix: LPDDR5 Commands New Features
  • 有关网站建设的外文文献好习惯网站
  • 网站的内容与功能设计优书网所有书单
  • 小迪web自用笔记56
  • Spring Security 完整使用指南
  • 中咨城建设计有限公司 网站网站seo外链接
  • 什么样的网站利于优化上海外贸公司集中在哪里
  • app与手机网站门户网站建设制作
  • 电竞网站方案设计河北邯郸网络科技有限公司
  • 天津大学 2025 预推免 第二批 机试 题解
  • 中山市城市建设档案馆网站wordpress dux 高亮
  • 免费空间做淘宝客网站wordpress收缩
  • 海报模板免费网站做阿里云网站空间
  • 深度特征工程实战:从数据到模型的关键一步
  • 帮人做网站怎么收费微信管理平台登录
  • 国外网站建设接单韩国做游戏的电影 迅雷下载网站有哪些
  • 哪些网站是phpwind做的国内wordpress有名主题
  • asp做网站教程强大的网站设计制作
  • 中国建设银行网站 纪念币预约企业网址下载