当前位置：首页 > news >正文

Anywhere文章精读

news 2025/11/5 19:56:02

标题：Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

作者：Xie Tianyidan2, Rui Ma3, Qian Wang4*, Xiaoqian Ye4, Feixuan Liu5, Ying Tai1,2, Zhenyu Zhang1,2, Lanjun Wang6, Zili Yi1,2*

单位：南京大学等

一些思考：

Q：为什么以前都是说要端到端的，现在又全拆开，这样全拆开的就叫agent？

A：任务复杂度上升，端到端模型难以优化（？）这类agent本质上是可交互的模块化ai组件

摘要：

近期，基于图像的图像生成（image-conditioned image generation）取得了显著进展。然而，基于前景的图像生成（foreground-conditioned image generation）研究相对较少，面临很多挑战。例如目标完整性受损，前景与背景不一致，生成结果的多样性受限以及控制灵活性偏低。这些问题的根源是当前端到端的图像修复（inpainting）模型的缺陷：训练时mask不准确、前景语义理解能力有限、数据分布存在偏差、视觉与文本提示直接的内在干扰「Q：什么是视觉与文本提示的干扰？A：ai可能很难在文本和视觉间找到一个完美的平衡，尤其在信息冲突的时候」。

所以Anywhere采用多代理架构（multi-agent），将任务拆解，每个代理负责不同方面，如前景理解、目标完整性保护等。支持用户输入的文本提示，增加可控性。自动评估生成质量，并在需要的时候，触发重新生成，提高生成结果的可靠性。是模块化框架，每个代理可以独立优化，有良好扩展性。

引言：

图生图近年来有显著进展，主要得益于扩散模型的发展。然而，基于前景物体补全背景的图像生成仍然是一个尚未深入研究的领域。需要关注这几个方面：

1. 保持物体的完整性--前景物体的形状颜色和结构不被破坏

2. 前景背景一致性--前景和背景需要自然融合不突兀

3. 创造需要多样性--背景不能千篇一律，要有一定的创造性和多样性

4. 文本一致性--在基于文本引导的图像修复任务中，文本提示的一致性可能会受到相互干扰的影响，这种问题主要发生在视觉输入和文本输入同时作用于模型时，导致模型难以准确理解和执行文本指令。问题根源是：大多数文本引导的图像修复模型（text-guided inpainting models）是从文生图（text-to-image generation）的模型改进过来的，这些模型缺乏有效的机制防止视觉和文本条件直接的不良干扰。

研究背景与方法：基于端到端模型的局限性，我们提出了一种模块化方法，引入多个智能体来解决这一问题，前景分析器--基于先进的vlm；提示生成器--利用llm生成有创意的textual prompts，提高生成图像的多样性；模版重绘器--自动检测对象完整性的破坏，必要时重绘；质量分析器--基于vlm，自动评估图像质量，需要时重新生成。此外，框架支持可选的用户文本输入（optional user textual inputs），可以将用户输入的文本与前景语义融合，合成最终的prompts。

研究结果与贡献：我们对框架进行了全面评估，结果表明上面提到的四点都表现出色。

方法

框架概述：框架主要由三个部分组成，prompt生成模块（结合输入的前景语义理解和llm的创造力）、图像生成模块（接受优化后的prompt，根据提示内容生成图像模版）、质量评估模块。

prompt生成模块，主要由三个核心子模块组成：前景分析器（foreground analyzer）、prompt生成器（prompt creator）、prompt选择器（prompt selector）。

前景分析器：基于vlm，分析图像并输出丰富的属性信息，包括物体类型形状颜色等。输出结构化的json格式，方便后续模块使用。

prompt生成器：基于前景分析器的输出信息，结合用户输入和质量评估反馈，生成多样化的prompt。输出k个候选prompt。

prompt选择器：评估标准为是否符合前景描述是否适用于图像生成模型等。选定的prompt将用于后续的图像生成过程。

图像生成模块，主要由模版生成器（template generator）、模版修复器（template repainter）、图像增强器组成（image enhancer）组成

模版生成器：利用ControlNet，一个边缘引导的图像生成模型，来生成初始的背景模版。「也就是边缘信息edge map 只保留物体的轮廓不包含颜色或纹理信息作为输入，引导图像生成」其工作方式是，输入前景图像的边缘图和模版prompt，使用controlNet以边缘图作为约束生成背景，作为初始模版提供给后续模块

模版修复器：解决前景-背景不一致问题，检测并修复因背景生成导致的前景遮挡、边缘融合问题，提升整体一致性。该模块有三个tool：segmentation tool（从初始图像中估算前景的mask）、auto-detection tool（使用目标检测模型找到边界框，然后使用边界框来裁剪图像，最后通过比较裁剪后图像的估计mask和gt mask来计算非重叠mask）、inpainting tool（高级图像修复模型，对受损区域进行智能填充，只修复必要区域避免影响原始前景内容）

图像增强器：采用高分辨率优化模型，进行超分辨率和细节增强。

质量评估模块，基于vlm，通过反馈循环来增强图像质量。vlm（像llava和gpt-4v等）作为评估工具，能理解视觉内容和文本描述，相比传统的psnr、ssim等图像质量指标，能从语义层面更全面评估图像。生成的文本feedback会送到prompt generation module。为了防止无限迭代，系统上限是三个循环。

实验

数据集：从laion和mscoco中各选1500张图，对每个图像进行分割，提取随机选出的前景作为测试数据

实现细节：整个框架由多个最新sota模型组成。

Prompt Generation Module（提示生成模块）

Prompt Creator & Prompt Selector：使用 Gemini-Pro（LLM）
Foreground Analyzer（前景分析器）：使用 Gemini-Pro-Vision（VLM）

Image Generation Module（图像生成模块）

Template Generator（背景模板生成器）：使用 ControlNet SDXL Canny
Image Enhancer（图像增强器）：使用 SDXL Refiner

Template Refinement Tools（模板优化工具）

分割：使用 RMBG-1.4（BRIA 2024）
目标检测（用于边界框裁剪）：使用 Grounding DINO
修复（Inpainting）：使用 LaMa（Suvorov et al. 2022）

Quality Evaluator（质量评估器）

评估器使用 Gemini-Pro-Vision（VLM）来判断生成图像的质量。

🔍 说明：

Gemini-Pro 是 Google 研发的 LLM（类似 GPT-4）。
Gemini-Pro-Vision 具备视觉理解能力，可以评估图片质量。
ControlNet SDXL Canny 用于基于边缘信息生成背景。
SDXL Refiner 是 Stable Diffusion XL 的高分辨率优化器。

baseline：为了证明新框架的有效性，作者将其与 3 个最先进的图像修复（inpainting）模型进行对比：

BrushNet（Ju et al. 2024）
- 双分支（dual-branch）结构，可用于图像修复任务，强调可扩展性和适配性。
HD-Painter（Manukyan et al. 2023）
- 高分辨率修复模型，擅长严格遵循文本提示生成图像。
Stable Diffusion 2.0 Inpainting（Rombach et al. 2022; Stabilityai 2022）
- 扩散模型，广泛应用于基于文本和掩码的图像修复任务。