当前位置: 首页 > news >正文

CVPR 2025 | 港中文 MMLab 提出文生图模型 T2I-R1,文生图进入R1时刻!

香港中文大学 MMLab 提出了一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型 T2I-R1,该模型结合了语义级和 token 级的链式思维(CoT)推理过程,并通过强化学习进行增强。T2I-R1 旨在通过在图像生成的不同阶段应用 CoT 推理策略,提升生成质量和文本与图像的对齐度。

相关链接

  • 论文:https://arxiv.org/pdf/2505.00703

  • 代码:https://github.com/CaraJ7/T2I-R1

论文介绍

大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提升性能。然而,将此类推理策略应用于视觉生成领域仍未得到广泛探索。本文提出了 T2I-R1,这是一种新颖的推理增强型文本到图像生成模型,它由强化学习驱动,并采用双层 CoT 推理过程。具体而言,我们确定了两个可用于增强不同生成阶段的 CoT 层级:

  1. 用于提示高级规划的语义层 CoT;

  2. 用于逐块生成过程中低级像素处理的 token 层 CoT。

为了更好地协调这两个 CoT 层级,引入了具有生成奖励集合的 BiCoT-GRPO,它可以在同一训练步骤中无缝优化两个生成 CoT。通过将推理策略应用于基线模型 Janus-Pro,该方法取得了卓越的性能,在 T2I-CompBench 上提高了 13%,在 WISE 基准上提高了 19%,甚至超越了最先进的模型 FLUX.1。

方法概述

图像理解和生成任务中认知能力(CoT)的图示。在图像理解任务中,认知能力(CoT)是文本推理过程。在自回归视觉生成任务中,我们定义了两个级别的认知能力(CoT):语义级认知能力(CoT)和标记级认知能力(CoT)。语义级认知能力(CoT)是图像生成之前的高级规划,以文本的形式呈现。标记级认知能力(CoT)是逐个图像块(patch)的中间生成过程,关注图像块内的局部像素细节,以图像标记的形式呈现。

T2I-R1 图像生成过程可视化。所有提示都需要推理,或包含不常见的场景。我们观察到,T2I-R1 能够成功推断出提示背后的真实意图,或对不常见的场景(文中突出显示)进行合理的想象,从而与基线模型 Janus-Pro 相比,产生了令人满意的结果。

BiCoT-GRPO 框架。 在步骤 1 中,指示模型根据图像提示生成语义级 CoT。在步骤 2 中,基于图像提示和语义级 CoT 生成图像,中间生成过程作为 token 级 CoT。 生成的图像由视觉专家团队评估以获得奖励。从每个提示生成 N 张图像,以计算群体相对奖励并进行 GRPO 训练。

生成奖励集合示意图。使用 GPT-4o mini 在训练前提取对象及其属性。每个专门的奖励模型都会接收定制的信息输入,用于奖励计算。将所有奖励的平均值作为最终奖励。

实验结果

可视化结果。提供了四个模型针对同一问题的图像生成结果:基础模型、仅优化语义级 CoT 的模型、仅优化 token 级 CoT 的模型以及同时优化两个级别 CoT 的模型。

单个提示图像多样性的可视化结果。展示了仅对 token 级 CoT 进行优化的结果,以及同时对语义级和 token 级 CoT 进行优化的结果。

结论

论文介绍的 T2I-R1 是首个基于双层 CoT 推理过程的推理增强型文本转图像模型。作者识别了用于高级规划的语义级 CoT 和用于逐块生成的 token 级 CoT。通过提出的 BiCoT-GRPO 进一步整合了它们,这是一个在同一训练步骤中整合了两级 CoT 的强化学习框架。通过利用同时具备视觉理解和生成能力的 ULM,提出的方法无需使用单独的专用模型,同时实现了显著的性能提升,在 T2I-CompBench 上提升了 13%,在 WISE 基准上提升了 19%,甚至超越了 FLUX.1。定性分析表明,T2I-R1 能够更好地理解复杂的提示,推理用户意图,并以更高的鲁棒性处理不常见场景,从而为以推理为中心的生成系统建立了新的范式。

相关文章:

  • freeRTOS xQueueGenericSend以及xQueueGenericReceive函数疑问
  • 【AI论文】硬测试:为大型语言模型(LLM)编程合成高质量测试用例
  • 华为大规模——重塑生产力
  • Git仓库的创建
  • 虹科方案 | 高效集成!CAN/CAN FD通信与数字信号控制一体化
  • 艾体宝案例丨Transavia如何借助LambdaTest测试平台高效起飞?
  • 什么是空闲钩子函数?
  • 第六章 进阶18 小杨的困惑
  • 《艾尔登法环:黑夜君临》口碑成两极分化?
  • Date类型时间比较
  • 进程的详解,命令行参数,程序的地址空间(Linux)
  • 基于springboot的校园社团信息系统的设计与实现
  • 广目软件GM DC Monitor
  • ansible和saltstack安装和简单操作
  • 【PmHub面试篇】PmHub中基于Redis加Lua脚本的计数器算法限流实现面试专题解析
  • k8s安装ingress-nginx
  • 通过跳板机连接远程主机
  • AI Infra运维实践:DeepSeek部署运维中的软硬结合
  • Vue3 卡片绑定滚动条 随着滚动条展开效果 GSAP动画库 ScrollTrigger滚动条插件
  • Spring Boot消息系统开发指南
  • 山东网站建设公司/深圳网站seo地址
  • 做网站的公司需要哪些资质/湖南seo优化公司
  • 3dweb网站开发/重庆seo排名方法
  • 项目的网站是用JSP做的吗/优化营商环境心得体会个人
  • html5的网站设计/西安seo排名扣费
  • 传统电商平台有哪些/厦门百度整站优化服务