Anywhere文章精读
标题:Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation
作者:Xie Tianyidan2, Rui Ma3, Qian Wang4*, Xiaoqian Ye4, Feixuan Liu5, Ying Tai1,2, Zhenyu Zhang1,2, Lanjun Wang6, Zili Yi1,2*
单位:南京大学等
一些思考:
Q:为什么以前都是说要端到端的,现在又全拆开,这样全拆开的就叫agent?
A:任务复杂度上升,端到端模型难以优化(?)这类agent本质上是可交互的模块化ai组件
摘要:
近期,基于图像的图像生成(image-conditioned image generation)取得了显著进展。然而,基于前景的图像生成(foreground-conditioned image generation)研究相对较少,面临很多挑战。例如目标完整性受损,前景与背景不一致,生成结果的多样性受限以及控制灵活性偏低。这些问题的根源是当前端到端的图像修复(inpainting)模型的缺陷:训练时mask不准确、前景语义理解能力有限、数据分布存在偏差、视觉与文本提示直接的内在干扰「Q:什么是视觉与文本提示的干扰?A:ai可能很难在文本和视觉间找到一个完美的平衡,尤其在信息冲突的时候」。
所以Anywhere采用多代理架构(multi-agent),将任务拆解,每个代理负责不同方面,如前景理解、目标完整性保护等。支持用户输入的文本提示,增加可控性。自动评估生成质量,并在需要的时候,触发重新生成,提高生成结果的可靠性。是模块化框架,每个代理可以独立优化,有良好扩展性。
引言:
图生图近年来有显著进展,主要得益于扩散模型的发展。然而,基于前景物体 补全背景的图像生成仍然是一个尚未深入研究的领域。需要关注这几个方面:
1. 保持物体的完整性--前景物体的形状颜色和结构不被破坏
2. 前景背景一致性--前景和背景需要自然融合不突兀
3. 创造需要多样性--背景不能千篇一律,要有一定的创造性和多样性
4. 文本一致性--在基于文本引导的图像修复任务中,文本提示的一致性可能会受到相互干扰的影响,这种问题主要发生在视觉输入和文本输入同时作用于模型时,导致模型难以准确理解和执行文本指令。问题根源是:大多数文本引导的图像修复模型(text-guided inpainting models)是从文生图(text-to-image generation)的模型改进过来的,这些模型缺乏有效的机制防止视觉和文本条件直接的不良干扰。
研究背景与方法:基于端到端模型的局限性,我们提出了一种模块化方法,引入多个智能体来解决这一问题,前景分析器--基于先进的vlm;提示生成器--利用llm生成有创意的textual prompts,提高生成图像的多样性;模版重绘器--自动检测对象完整性的破坏,必要时重绘;质量分析器--基于vlm,自动评估图像质量,需要时重新生成。此外,框架支持可选的用户文本输入(optional user textual inputs),可以将用户输入的文本与前景语义融合,合成最终的prompts。
研究结果与贡献:我们对框架进行了全面评估,结果表明上面提到的四点都表现出色。
相关工作
基于扩散模型的可控图像生成、基于扩散模型的图像补全、用于视觉任务的大语言模型
方法
框架概述:框架主要由三个部分组成,prompt生成模块(结合输入的前景语义理解和llm的创造力)、图像生成模块(接受优化后的prompt,根据提示内容生成图像模版)、质量评估模块。
prompt生成模块,主要由三个核心子模块组成:前景分析器(foreground analyzer)、prompt生成器(prompt creator)、prompt选择器(prompt selector)。
前景分析器:基于vlm,分析图像并输出丰富的属性信息,包括物体类型 形状 颜色等。输出结构化的json格式,方便后续模块使用。
prompt生成器:基于前景分析器的输出信息,结合用户输入和质量评估反馈,生成多样化的prompt。输出k个候选prompt。
prompt选择器:评估标准为 是否符合前景描述 是否适用于图像生成模型等。选定的prompt将用于后续的图像生成过程。
图像生成模块, 主要由模版生成器(template generator)、模版修复器(template repainter)、图像增强器组成(image enhancer)组成
模版生成器:利用ControlNet,一个边缘引导的图像生成模型,来生成初始的背景模版。「也就是边缘信息edge map 只保留物体的轮廓 不包含颜色或纹理信息 作为输入,引导图像生成」其工作方式是,输入前景图像的边缘图和模版prompt,使用controlNet以边缘图作为约束生成背景,作为初始模版提供给后续模块
模版修复器:解决前景-背景不一致问题,检测并修复因背景生成导致的前景遮挡、边缘融合问题,提升整体一致性。该模块有三个tool:segmentation tool(从初始图像中估算前景的mask)、auto-detection tool(使用目标检测模型找到边界框,然后使用边界框来裁剪图像,最后通过比较裁剪后图像的估计mask和gt mask来计算非重叠mask)、inpainting tool(高级图像修复模型,对受损区域进行智能填充,只修复必要区域 避免影响原始前景内容)
图像增强器:采用高分辨率优化模型,进行超分辨率和细节增强。
质量评估模块,基于vlm,通过反馈循环来增强图像质量。vlm(像llava和gpt-4v等)作为评估工具,能理解视觉内容和文本描述,相比传统的psnr、ssim等图像质量指标,能从语义层面更全面评估图像。生成的文本feedback会送到prompt generation module。为了防止无限迭代,系统上限是三个循环。
实验
数据集:从laion和mscoco中各选1500张图,对每个图像进行分割,提取随机选出的前景作为测试数据
实现细节:整个框架由多个最新sota模型组成。
Prompt Generation Module(提示生成模块)
-
Prompt Creator & Prompt Selector:使用 Gemini-Pro(LLM)
-
Foreground Analyzer(前景分析器):使用 Gemini-Pro-Vision(VLM)
Image Generation Module(图像生成模块)
-
Template Generator(背景模板生成器):使用 ControlNet SDXL Canny
-
Image Enhancer(图像增强器):使用 SDXL Refiner
Template Refinement Tools(模板优化工具)
-
分割:使用 RMBG-1.4(BRIA 2024)
-
目标检测(用于边界框裁剪):使用 Grounding DINO
-
修复(Inpainting):使用 LaMa(Suvorov et al. 2022)
Quality Evaluator(质量评估器)
-
评估器使用 Gemini-Pro-Vision(VLM) 来判断生成图像的质量。
🔍 说明:
-
Gemini-Pro 是 Google 研发的 LLM(类似 GPT-4)。
-
Gemini-Pro-Vision 具备视觉理解能力,可以评估图片质量。
-
ControlNet SDXL Canny 用于基于边缘信息生成背景。
-
SDXL Refiner 是 Stable Diffusion XL 的高分辨率优化器。
baseline:为了证明新框架的有效性,作者将其与 3 个最先进的图像修复(inpainting)模型 进行对比:
-
BrushNet(Ju et al. 2024)
-
双分支(dual-branch) 结构,可用于图像修复任务,强调可扩展性和适配性。
-
-
HD-Painter(Manukyan et al. 2023)
-
高分辨率修复模型,擅长严格遵循文本提示生成图像。
-
-
Stable Diffusion 2.0 Inpainting(Rombach et al. 2022; Stabilityai 2022)
-
扩散模型,广泛应用于基于文本和掩码的图像修复任务。
-
评估指标:------未完待续