当前位置: 首页 > news >正文

探索AI新前沿,CoT推理赋能文生图!港中文首次提出文生图的o1推理和inference scaling新范式

OpenAI的o1模型凭借思维链(Chain-of-Thought, CoT)技术,在推理能力上实现了质的飞跃,引领了大模型理解领域的新风尚。然而,这一创新的火花能否照亮图像生成领域?近日,来自香港中文大学、北京大学及上海AI Lab的科研团队,系统地探索了“CoT 推理+文生图”的结合与潜力。

通过精心设计的Verify和Reinforce方案,不仅验证了CoT推理与文生图结合的无限可能,更揭示了这一融合策略在提升自回归图像生成质量上的显著成效。

相关链接

  • 论文:https://arxiv.org/pdf/2501.13926

  • 代码:https://github.com/ZiyuGuo99/Image-Generation-CoT

  • 模型:https://huggingface.co/ZiyuG/Image-Generation-CoT

论文介绍

图像生成中的推理

数学中的 LLM 和 LMM 广泛探索了思路链 (CoT) 推理。然而,这种策略是否可以应用于验证和强化图像生成场景仍是一个悬而未决的问题。在这个项目首次全面研究了 CoT 推理增强自回归图像生成的潜力。

论文重点关注三种 CoT 推理技术:

  • 扩展测试时间计算以进行验证(ORM、PRM 以及我们提出的 PARM 和 PARM++)

  • 通过直接偏好优化 (DPO)调整模型偏好

  • 整合这些技术以达到互补效果

结果表明这些方法可以有效地调整和组合,以显著提高图像生成性能

此外,鉴于奖励模型在研究结果中起着关键作用,论文提出了潜在评估奖励模型( PARM )和PARM ++,专门用于自回归图像生成:

  1. PARM通过潜在评估方法自适应地评估每个生成步骤,融合现有奖励模型的优势。

  2. PARM++进一步引入了反射机制,使生成模型能够自我纠正之前不令人满意的图像。

在 GenEval 基准上显著提高了 +24%,超过 Stable Diffusion 3 +15%。

开始使用

安装

  1. 克隆存储库:

git clone https://github.com/ZiyuGuo99/Image-Generation-CoT.git
cd Image-Generation-CoT
  1. 创建 conda 环境:

conda create -n img_cot python=3.10
conda activate img_cot

请按照此处的说明安装 PyTorch 和 TorchVision 依赖项。

  1. 安装其他依赖项:

pip install -r requirements.txt
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection; git checkout 2.x
pip install -v -e .
git clone https://github.com/LLaVA-VL/LLaVA-NeXT && cd LLaVA-NeXT && pip install -e ".[train]"

结论

论文研究了 CoT 推理策略在自回归图像生成中的适应性和潜力。通过系统调查证明了不同的推理策略可以有效地改善图像生成,例如测试时间验证、偏好对齐及其集成。根据观察进一步引入了两种用于自回归图像生成的定制奖励模型,称为潜在评估奖励模型 (PARM) 和 PARM++,它们评估了自适应奖励评分的逐步生成,并结合了用于自我校正图像生成的反射机制。

相关文章:

  • 【嵌入式原理设计】实验五:远程控制翻盖设计
  • 1998-2022年各地级市第一产业占GDP比重数据/(全市)
  • 某住宅小区地下车库安科瑞的新能源汽车充电桩的配电设计与应用方案
  • 从实测看声网:用技术重构直播,为电商创业赋能
  • PhotoShop学习01
  • 自定义mybatis拦截器,在springboot项目中不起作用的解决方法
  • 计算机毕业设计SpringBoot+Vue.js电影评论网站系统(源码+文档+PPT+讲解)
  • python学习四
  • 玻璃非球面加工:倚光科技助力高精度光学元件制造
  • 跟着AI学vue第十二章
  • IIC基础知识(集成电路总线)
  • 自动化办公|xlwings与pandas交互
  • 《从Kokoro看开源语音模型的“无限可能”》:此文为AI自动生成
  • ros1 noetic 程序编译总是报节点程序找不到问题
  • 国高材服务:新能源汽车连接器电气腐蚀性能评价
  • C++ Primer 再探迭代器
  • DeepEP:开源通信库的高效专家并行计算解决方案
  • Deepseek的缺陷
  • 在docker中运行R容器,并在Windows下的vscode中使用该R
  • win11本地部署deepseek大模型(安装ollama+docker+open-webui)最终实现自己的项目可通过API调用投喂数据后的模型
  • 蚊媒传染病、手足口病……上海疾控发布近期防病提示
  • 外企聊营商|特雷通集团:税务服务“及时雨”
  • 外交部:正确认识和对待历史是检验日本能否恪守和平发展承诺的重要标准
  • 济南市委副秘书长吕英伟已任历下区领导
  • 山西省委常委李金科添新职
  • 今起公开发售,宁德时代将于5月20日在港股上市