当前位置：首页 > news >正文

上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理

news 2025/10/4 15:03:48

本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。第一作者陈杨是浙江大学硕士生，研究方向为多模态大模型和推理，本工作完成于她在上海AI Lab实习期间，实习所在团队以Agent-Ready的知识为核心，实现「提取->结构化->推理」全链路，包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab，正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。论文的共同通讯作者于智是浙江大学 EagleLab 副教授，曾任浙大 ACM 教练并执教获世界总冠军。功成身退之后，长期致力于用 AI 改善残障人群生活，在信息无障碍和人工智能领域有深厚造诣。

一个任务有多容易被 AI 解决？最终可能只取决于一个简单的问题：它的答案有多容易被验证？

这，就是验证非对称性（Asymmetry of Verification）—— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是：对很多任务而言，验证一个解的好坏，远比从头创造一个解要容易得多。

这一思想，正是近期从 OpenAI 跳槽至 Meta 的思维链（CoT）开山作者 Jason Wei 在其最新博客中提出的「验证者法则」（Verifier's Law）的基石。他断言：「所有可能被解决且易于验证的任务，都将被 AI 解决。」

为什么？因为一个任务如果具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性，就相当于为强化学习（RL）创造了一个完美的训练场。AI 可以在这个场中进行海量的、高效率的「猜测 - 检验」（guess-and-check），通过不断的迭代优化，最终逼近最优解。

而这一法则的最佳实践，已经悄然出现在了多模态领域。上海AILAB和浙江大学EagleLab的最新研究RRVF（Reasoning-Rendering-Visual-Feedback），就完美诠释了如何利用「验证的非对称性」来攻克复杂的视觉推理难题。

论文标题：Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
论文地址：https://arxiv.org/pdf/2507.20766

RRVF：Image2code 的「验证者法则」训练场

在传统 AI 训练中，我们依赖昂贵的「图像 - 文本」配对数据来教模型进行视觉推理。这不仅成本高昂，而且很多时候限制了 AI 的创造力，例如使用特定的 code 来训练还原 image。

RRVF 框架则另辟蹊径，它没有去教模型「怎么做」，而是构建了一个让模型可以自我验证的环境。RRVF 的全称是「Reasoning-Rendering-Visual-Feedback」（推理 - 渲染 - 视觉反馈），这三个词精准地概括了其核心工作流。它构建了一个端到端优化的闭环系统，让模型在「自我纠正」中学习。

第一步：迭代式视觉推理 (Iterative Visual Reasoning)

面对一张目标图像（如数据图表），它会进行迭代式多轮思考。在每一轮，模型都会在 < think > 中先写下自己的思考过程，然后调用外部工具进行渲染和获取反馈，在后续轮次中根据反馈修正自己的代码。

第二步：视觉反馈 (Visual Feedback)

外部工具（如 Matplotlib 或 Playwright 浏览器）执行代码后，会渲染生成图片。此时，一个更强大的「视觉裁判」模型（论文中使用了 72B 的 Qwen2.5-VL）会介入，对比渲染图和原图，并生成定性的、结构化的自然语言反馈，例如：「图表类型正确，但颜色不匹配」、「网页布局基本正确，但缺少了一个按钮」。这些反馈会作为新的输入，指导模型进行下一轮的代码修正。

第三步：视觉裁判 (Visual Judge) & 混合奖励

在整个迭代过程结束后，模型会输出最终的代码。此时，「视觉裁判」会再次出场，但这次它扮演的是「法官」角色，给出一个定量的视觉相似度分数 R_vision。
但仅仅有视觉分是不够的。为了让模型学得更好，研究者设计了混合奖励函数 (Hybrid Reward Design)：

视觉相似度奖励 (R_vision)：核心奖励，分数越高奖励越大。
格式正确性奖励 (R_format)：代码能否跑通？思考和工具调用的格式对不对？如果出错，直接给予惩罚。
工具使用奖励 (R_tool)：为了鼓励模型探索和使用反馈循环，每次成功的工具调用都会获得少量奖励，直到模型表现得足够好（视觉分超过 0.95）或达到最大次数。

这三个奖励通过加权组合（R = w_v * R_vision + w_f * R_format + w_t * R_tool），构成最终的驱动力。

最后一步：GRPO 算法优化