当前位置：首页 > news >正文

【AI论文】视觉拼图式微调可提升多模态大语言模型性能

news 2025/10/6 10:42:06

摘要：基于强化学习的微调方法近期已成为增强多模态大语言模型（MLLMs）对齐能力与推理能力的有效范式。尽管以视觉为中心的微调对于提升MLLMs对视觉信号的内在理解至关重要，但当前微调范式仍以文本为主导——密集的视觉输入仅被用于提取稀疏线索以支持基于文本的推理。尽管已有少数研究尝试向这一方向探索，但这些方法往往仍依赖文本作为中间媒介，或引入额外的视觉生成模块。本研究提出Visual Jigsaw，一种通用的自监督微调框架，旨在强化MLLMs的视觉理解能力。该框架通过构建通用排序任务实现：将视觉输入分割、打乱后，要求模型以自然语言形式生成正确排列顺序以重构视觉信息。这一设计天然契合基于可验证奖励的强化学习（RLVR），无需引入额外视觉生成组件，且无需任何标注即可自动获取监督信号。我们在图像、视频及三维数据三种视觉模态上验证了Visual Jigsaw的有效性。大量实验表明，该方法能显著提升模型的细粒度感知、时序推理及三维空间理解能力。本研究揭示了自监督视觉中心任务在MLLMs微调中的潜力，旨在为视觉中心前置任务设计提供进一步的研究启示。项目主页：Github。Huggingface链接：Paper page，论文链接：2509.25190

研究背景和目的

研究背景：

随着人工智能技术的快速发展，多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉和语言任务中取得了显著进展。

这些模型通过整合视觉和语言信息，实现了对复杂场景的理解和推理。然而，现有的MLLMs在视觉理解方面仍存在不足，尤其是在处理精细粒度感知、时间推理和三维空间理解等任务时表现欠佳。传统的后训练方法主要依赖于文本中心的强化学习（Reinforcement Learning from Verifiable Reward, RLVR），这些方法虽然增强了模型的推理能力，但往往忽视了视觉信号本身的内在理解。此外，一些方法尝试通过引入视觉生成组件来改进视觉理解，但这需要修改模型架构并增加额外的训练目标。

在此背景下，如何通过一种轻量级且与现有模型架构兼容的方法来增强MLLMs的视觉理解能力，成为了一个亟待解决的问题。

自我监督学习（Self-supervised Learning, SSL）作为一种无需人工标注数据的学习方法，在视觉表示学习中表现出色。然而，传统的SSL方法主要关注于重构或判别任务，这些任务通常需要像素级的保真度，可能不是增强MLLMs视觉理解能力的最优策略。

研究目的：

本研究旨在提出一种新型的自我监督后训练框架——Visual Jigsaw，通过解决视觉拼图任务来增强MLLMs的视觉理解能力。具体目标包括：