当前位置: 首页 > news >正文

Anywhere文章精读

标题:Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

作者:Xie Tianyidan2, Rui Ma3, Qian Wang4*, Xiaoqian Ye4, Feixuan Liu5, Ying Tai1,2, Zhenyu Zhang1,2, Lanjun Wang6, Zili Yi1,2*

单位:南京大学等


一些思考:

Q:为什么以前都是说要端到端的,现在又全拆开,这样全拆开的就叫agent?

A:任务复杂度上升,端到端模型难以优化(?)这类agent本质上是可交互的模块化ai组件


 

摘要:

近期,基于图像的图像生成(image-conditioned image generation)取得了显著进展。然而,基于前景的图像生成(foreground-conditioned image generation)研究相对较少,面临很多挑战。例如目标完整性受损,前景与背景不一致,生成结果的多样性受限以及控制灵活性偏低。这些问题的根源是当前端到端的图像修复(inpainting)模型的缺陷:训练时mask不准确、前景语义理解能力有限、数据分布存在偏差、视觉与文本提示直接的内在干扰「Q:什么是视觉与文本提示的干扰?A:ai可能很难在文本和视觉间找到一个完美的平衡,尤其在信息冲突的时候」。

所以Anywhere采用多代理架构(multi-agent),将任务拆解,每个代理负责不同方面,如前景理解、目标完整性保护等。支持用户输入的文本提示,增加可控性。自动评估生成质量,并在需要的时候,触发重新生成,提高生成结果的可靠性。是模块化框架,每个代理可以独立优化,有良好扩展性。

引言:

图生图近年来有显著进展,主要得益于扩散模型的发展。然而,基于前景物体 补全背景的图像生成仍然是一个尚未深入研究的领域。需要关注这几个方面:

1. 保持物体的完整性--前景物体的形状颜色和结构不被破坏

2. 前景背景一致性--前景和背景需要自然融合不突兀

3. 创造需要多样性--背景不能千篇一律,要有一定的创造性和多样性

4. 文本一致性--在基于文本引导的图像修复任务中,文本提示的一致性可能会受到相互干扰的影响,这种问题主要发生在视觉输入和文本输入同时作用于模型时,导致模型难以准确理解和执行文本指令。问题根源是:大多数文本引导的图像修复模型(text-guided inpainting models)是从文生图(text-to-image generation)的模型改进过来的,这些模型缺乏有效的机制防止视觉和文本条件直接的不良干扰。

研究背景与方法:基于端到端模型的局限性,我们提出了一种模块化方法,引入多个智能体来解决这一问题,前景分析器--基于先进的vlm;提示生成器--利用llm生成有创意的textual prompts,提高生成图像的多样性;模版重绘器--自动检测对象完整性的破坏,必要时重绘;质量分析器--基于vlm,自动评估图像质量,需要时重新生成。此外,框架支持可选的用户文本输入(optional user textual inputs),可以将用户输入的文本与前景语义融合,合成最终的prompts。

研究结果与贡献:我们对框架进行了全面评估,结果表明上面提到的四点都表现出色。

相关工作

基于扩散模型的可控图像生成、基于扩散模型的图像补全、用于视觉任务的大语言模型

方法

框架概述:框架主要由三个部分组成,prompt生成模块(结合输入的前景语义理解和llm的创造力)、图像生成模块(接受优化后的prompt,根据提示内容生成图像模版)、质量评估模块。

prompt生成模块,主要由三个核心子模块组成:前景分析器(foreground analyzer)、prompt生成器(prompt creator)、prompt选择器(prompt selector)。

前景分析器:基于vlm,分析图像并输出丰富的属性信息,包括物体类型 形状 颜色等。输出结构化的json格式,方便后续模块使用。

prompt生成器:基于前景分析器的输出信息,结合用户输入和质量评估反馈,生成多样化的prompt。输出k个候选prompt。

prompt选择器:评估标准为 是否符合前景描述 是否适用于图像生成模型等。选定的prompt将用于后续的图像生成过程。

图像生成模块, 主要由模版生成器(template generator)、模版修复器(template repainter)、图像增强器组成(image enhancer)组成

模版生成器:利用ControlNet,一个边缘引导的图像生成模型,来生成初始的背景模版。「也就是边缘信息edge map 只保留物体的轮廓 不包含颜色或纹理信息 作为输入,引导图像生成」其工作方式是,输入前景图像的边缘图和模版prompt,使用controlNet以边缘图作为约束生成背景,作为初始模版提供给后续模块

模版修复器:解决前景-背景不一致问题,检测并修复因背景生成导致的前景遮挡、边缘融合问题,提升整体一致性。该模块有三个tool:segmentation tool(从初始图像中估算前景的mask)、auto-detection tool(使用目标检测模型找到边界框,然后使用边界框来裁剪图像,最后通过比较裁剪后图像的估计mask和gt mask来计算非重叠mask)、inpainting tool(高级图像修复模型,对受损区域进行智能填充,只修复必要区域 避免影响原始前景内容)

图像增强器:采用高分辨率优化模型,进行超分辨率和细节增强。

质量评估模块,基于vlm,通过反馈循环来增强图像质量。vlm(像llava和gpt-4v等)作为评估工具,能理解视觉内容和文本描述,相比传统的psnr、ssim等图像质量指标,能从语义层面更全面评估图像。生成的文本feedback会送到prompt generation module。为了防止无限迭代,系统上限是三个循环。

实验

数据集:从laion和mscoco中各选1500张图,对每个图像进行分割,提取随机选出的前景作为测试数据

实现细节:整个框架由多个最新sota模型组成。

Prompt Generation Module(提示生成模块)
  • Prompt Creator & Prompt Selector:使用 Gemini-Pro(LLM)

  • Foreground Analyzer(前景分析器):使用 Gemini-Pro-Vision(VLM)

Image Generation Module(图像生成模块)
  • Template Generator(背景模板生成器):使用 ControlNet SDXL Canny

  • Image Enhancer(图像增强器):使用 SDXL Refiner

Template Refinement Tools(模板优化工具)
  • 分割:使用 RMBG-1.4(BRIA 2024)

  • 目标检测(用于边界框裁剪):使用 Grounding DINO

  • 修复(Inpainting):使用 LaMa(Suvorov et al. 2022)

Quality Evaluator(质量评估器)
  • 评估器使用 Gemini-Pro-Vision(VLM) 来判断生成图像的质量。

🔍 说明:

  • Gemini-Pro 是 Google 研发的 LLM(类似 GPT-4)。

  • Gemini-Pro-Vision 具备视觉理解能力,可以评估图片质量。

  • ControlNet SDXL Canny 用于基于边缘信息生成背景。

  • SDXL Refiner 是 Stable Diffusion XL 的高分辨率优化器。

baseline:为了证明新框架的有效性,作者将其与 3 个最先进的图像修复(inpainting)模型 进行对比:

  1. BrushNet(Ju et al. 2024)

    • 双分支(dual-branch) 结构,可用于图像修复任务,强调可扩展性和适配性。

  2. HD-Painter(Manukyan et al. 2023)

    • 高分辨率修复模型,擅长严格遵循文本提示生成图像。

  3. Stable Diffusion 2.0 Inpainting(Rombach et al. 2022; Stabilityai 2022)

    • 扩散模型,广泛应用于基于文本和掩码的图像修复任务。

评估指标:------未完待续 

 

http://www.dtcms.com/a/106406.html

相关文章:

  • c# 如何利用redis存储对象,并实现快速查询
  • 实时显示符合条件的完整宋词
  • 基于 DeepSeek 与天地图搭建创新地理信息应用
  • STM32F103低功耗模式深度解析:从理论到应用实践(上) | 零基础入门STM32第九十二步
  • 使用ctags+nvim自动更新标签文件
  • 基于springboot汽车租赁系统
  • 【百日精通JAVA | SQL篇 | 第二篇】数据库操作
  • K8S集群搭建 龙蜥8.9 Dashboard部署(2025年四月最新)
  • 云计算:数字化转型的核心引擎
  • 硬件工程师零基础入门教程(三)
  • 淘天集团Java开放岗暑期实习笔试(2025年4月2日)
  • 数据结构B树的实现
  • 3D Mapping秀制作:沉浸式光影盛宴 3D mapping show
  • Linux | I.MX6ULL内核及文件系统源码结构(7)
  • Java 基础-30-单例设计模式:懒汉式与饿汉式
  • 一份关于近期推理模型研究进展的报告
  • PostgreSQL DDL 语句基本语法概览
  • 程序化广告行业(51/89):Cookie映射与移动设备ID映射解析
  • ARC缓存淘汰算法
  • 青少年编程与数学 02-015 大学数学知识点 03课题、概率论和数理统计
  • 探索Doris:日志分析的新宠,是否能取代老牌ES?
  • 使用PyInstaller打包Python项目
  • 蓝桥杯冲刺:一维前缀和
  • C语言的continue与break
  • web前端开发-JS
  • Python爬虫第3节-会话、Cookies及代理的基本原理
  • PCL RANSAC探测空间直线(指定方向)
  • Pyspark学习一:概述
  • ARM板 usb gadget hid 模拟键鼠
  • 基于 Jackson 的 JSON 工具类实现解析与设计模式应用