【CVPR2025】计算机视觉|RORem:让物体移除“脱胎换骨”!
论文地址:http://arxiv.org/pdf/2501.00740v3
代码地址:https://github.com/leeruibin/RORem
关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
摘要
尽管取得了显著的进展,现有的物体移除方法仍然难以应对移除不完整、内容合成错误和合成区域模糊等问题,导致成功率较低。这些问题的主要原因是缺乏高质量的配对训练数据,以及这些方法采用的自监督训练范式,迫使模型对遮罩区域进行修复,导致合成遮罩物体和恢复背景之间的歧义。为了解决这些问题,本研究提出了一种半监督学习策略,利用人工参与创建高质量的配对训练数据,旨在训练一个鲁棒的物体移除器(RORem)。本研究首先从开源数据集中收集了 60K 个训练对,以训练一个初始物体移除模型用于生成移除样本,然后利用人工反馈选择一组高质量的物体移除对,并用其训练一个判别器来自动化后续的训练数据生成过程。通过迭代这个过程几轮,本研究最终获得了一个包含超过 200K 对的大量物体移除数据集。用此数据集微调预训练的稳定扩散模型,本研究得到了 RORem,它在可靠性和图像质量方面都展现了最先进的物体移除性能。尤其值得注意的是,RORem 的物体移除成功率比之前的方法提高了 18% 以上。
引言
本研究致力于图像中目标移除任务,该任务旨在用逼真的背景填充用户指定的掩蔽目标区域。尽管基于CNN和Transformer的网络以及GAN方法在目标移除领域取得了显著进展,但现有方法仍然面临一些挑战。这些挑战主要包括不完全移除、错误的内容合成以及模糊的合成区域,最终导致移除的成功率较低。这些问题的根源在于高质量配对训练数据的缺乏,以及这些方法采用的自监督训练范式。自监督训练范式迫使模型根据未掩蔽的内容对掩蔽区域进行修复,这在测试阶段会导致模型在合成被掩蔽物体和恢复背景之间产生混淆。例如,当鸟或猫被掩蔽时,训练范式要求模型根据未掩蔽的内容重建鸟/猫,而本研究的目标是移除物体并恢复背景。为减轻这种歧义,包含物体出现前后图像的高质量配对训练数据至关重要。虽然最近的一些工作尝试通过在真实场景中拍摄图像或合成逼真的数据来构建此类配对数据集,但这些数据集的规模、多样性和质量仍然有限,制约了目标移除的性能。
为了应对这些挑战,本研究提出了一种结合人工反馈的半监督学习策略来生成高质量的配对训练数据,以训练一个鲁棒的目标移除模型(RORem)。本研究首先从开源数据集中收集了6万个训练三元组,用于训练初始目标移除模型,以生成移除样本。然后,本研究利用人工反馈来选择一组高质量的目标移除图像对,并用这些图像对训练一个鉴别器,以自动化后续的训练数据生成过程。通过迭代这个过程数轮,本研究最终获得了一个包含超过20万个图像对的大规模目标移除数据集。此外,本研究还构建了一个小型的高分辨率数据集用于最终微调,以提高输出图像的质量。利用收集到的数据集,本研究对预训练的Stable Diffusion XL (SDXL) inpainting模型进行微调,得到了最终的RORem模型。RORem模型能够完全移除目标物体并再现清晰的背景。考虑到推理效率对于实际应用至关重要,本研究在RORem中引入了可训练的LoRA层,并利用蒸馏技术来提高编辑效率,使RORem能够在**四个扩散步骤(少于1秒)**内完成移除过程。
论文创新点
🚀 本研究提出了一个名为 RORem 的鲁棒物体移除模型,并引入了“人在环路中”的训练策略。 🚀
该策略旨在构建一个大规模、高质量且类别多样化的物体移除数据集,以提升模型的鲁棒性和移除效果。
-
💡 半监督学习的数据生成方法: 💡
- 不同于以往基于随机遮罩的自监督学习范式,本研究利用人工反馈来筛选高质量的物体移除样本对。
- 这种“人在环路中”的策略能够有效地指导模型学习如何合成逼真的背景,而非简单地重建被遮罩的物体。
-
📚 大规模高质量数据集的构建: 📚
- 本研究构建了一个包含超过 20 万对高质量物体移除样本的数据集。
- 该数据集涵盖了各种物体类别,如人物、动物、植物、交通工具、建筑物、室内物品等,确保了模型的泛化能力。
- 数据集的构建过程分为三个阶段:初始化阶段、人工标注阶段和自动标注阶段。
- 这种迭代式的构建方式,结合了人工标注的精准性和自动标注的高效性,使得数据集的规模和质量都得到了显著提升。
-
🤖 与人类偏好对齐的判别器: 🤖
- 本研究设计了一个与人类偏好对齐的判别器,用于自动化数据标注过程。
- 在人工标注阶段收集的人工反馈数据被用于训练该判别器。
- 训练后的判别器可以自动评估物体移除结果的质量,并筛选出高质量的样本对,从而降低了人工标注的成本,提高了数据生成的效率。
-
🛠️ 基于 SDXL 的模型微调和蒸馏: 🛠️
- 本研究对预训练的 Stable Diffusion XL (SDXL) 模型进行微调,并结合了高效的模型蒸馏技术。
- 通过微调,SDXL 模型能够学习到特定于物体移除任务的知识,从而提高移除的鲁棒性和图像质量。
- 此外,模型蒸馏技术将模型的推理步骤压缩至四个扩散步骤,显著提升了移除效率,使其能够在不到一秒的时间内完成移除过程。
论文实验