WithAnyone: Towards Controllable and ID Consistent Image Generation论文阅读
核心思想
提升人物ID参考生成的一致性
解决现有文本到图像生成模型在进行“身份定制”(ID Customization)时普遍存在的问题:“复制粘贴”伪影(copy-paste artifact)。
解决方案:
- 大规模数据集(MultiID-2M):包含大量配对的、多样的同一人物的图片,为模型学习“身份”而非“图像”提供了数据基础。
- 评测基准(MultiID-Bench):引入了能定量衡量“复制粘贴”程度的指标,并以此评估模型在身份保真度和生成多样性之间的平衡。
- 一个新的训练范式和模型(WithAnyone):利用配对数据和创新的对比身份损失函数,训练出一个能够在保持高度身份一致性的同时,显著减少“复制粘贴”现象的模型。
详细解读
1. 核心问题:“复制粘贴”伪影
- 现象:现有模型为了追求高的人脸相似度(ID Similarity),会过度拟合参考图片。比如,即使prompt要求人物“微笑”,但如果参考图是“严肃”的,生成图也常常是严肃的,因为模型只是在复制参考图的人脸。
- 根源:缺乏合适的训练数据。大多数方法使用“重构训练”(Reconstruction Training),即输入和输出是同一张图片。这种训练方式自然会鼓励模型学
