当前位置: 首页 > news >正文

论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing

Step1X-Edit 论文
当前图像编辑数据集规模小,质量差,由此构建了如下数据构造管线。
在这里插入图片描述
高质量三元组数据(源图像、编辑指令、目标图像)。

  • 主体添加与移除:使用 Florence-2 对专有数据集标注,然后使用 SAM2 进行分割,再使用 ObjectRemovalAlpha 进行修复。编辑指令结合 Step-1o 和 GPT-4o 生成,然后人工审查有效性。
  • 主体替换与背景更改:使用 Florence-2 对专有数据集标注,然后使用 SAM2 进行分割,再使用 Qwen-2.5VL 和 Recognize-Anything Model 识别目标对象和关键词,使用 Flux-Fill 进行内容感知修复。指令由 Step-1o 生成并人工审查。
  • 色彩更改与材质修改:在图像中检测到对象后,使用 Zeodepth 深度估计,使用带扩散模型的 ControlNet 生成新图像。
  • 文本修改:使用 PPOCR 识别字符,以及 Step-1o 模型区分文本正确、错误区域。同样生成编辑指令。
  • 运动变化:使用 Koala-36M 的视频,提取帧作为输入,使用 BiRefNet 和 RAFT 进行前景-背景和光流估计,再用 GPT-4o 标记帧间运动变化作为编辑指令。
  • 人像编辑与美化:对于动画风格和真实图像,先提取边缘,再利用 ControlNet 进行风格迁移。
  • 采用上下文、双语标注。

在这里插入图片描述
之前的模态融合,FLUX-Fill 使用通道连接,但面对图像编辑指令不够灵活(难以处理局部调整、缺乏语义对齐、难以处理复杂指令);SeedEdit 引入额外的因果自注意力,但会牺牲图像细粒度;DreamEngine 利用 Qwen 对图像和文本模态对齐,建立了共享表征空间,难以完全捕捉图像细粒度(更关注语义对齐)。
Step1X-Edit

  • 输入的编辑指令和参考图像首先通过MLLM进行处理。为了隔离和强调与编辑任务相关的语义元素,选择性地丢弃与系统前缀相关的标记嵌入,仅保留与编辑信息直接对齐的嵌入。
  • 提取的嵌入被输入到轻量级的连接器模块,重构为更紧凑的多模态特征表示,然后作为输入传递给下游的DiT网络。采用标记连接(token concatenation)的方式,平衡对编辑指令的响应性与对细粒度图像细节的保留。这种方法比通道连接或额外的自注意力机制更有效。
  • 在训练过程中,联合优化连接器模块和下游的DiT,仅使用扩散损失进行训练,确保稳定训练而不依赖掩码损失技巧。(采用 Rectified Flow 方式)
  • 并且对 VLLM 输出的有效嵌入计算均值,将其作为 DiT 的引导。

实验

团队从互联网上收集了超过1K的用户编辑实例,构建了GEdit-Bench,包含606个真实用户编辑指令,覆盖11类任务。为确保隐私,所有图像经过去标识化处理。与其他基准(如EditBench和MagicBrush)相比,GEdit-Bench更贴近实际需求。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

疑问:本文仅在自己构建的测试集上评估,并缺乏消融实验验证架构设计。

相关文章:

  • python学习day30
  • 《100天精通Python——基础篇 2025 第21天:多线程性能剖析与 GIL 深入解析》
  • java集成Swagger2
  • 人工智能与机器学习从理论、技术与实践的多维对比
  • java helloWord java程序运行机制 用idea创建一个java项目 标识符 关键字 数据类型 字节
  • 【洛谷P9303题解】AC代码- [CCC 2023 J5] CCC Word Hunt
  • 如何合理选择智能外呼机器人:多维评估
  • PDF处理控件Aspose.PDF教程:压缩 PDF 文档的完整指南
  • ubuntu20.04安装CUDA、Cudnn
  • 【】20250527PDF文件拆分成多个pdf(两页一份,用幼儿班级姓名命名文件)
  • 速通《Sklearn 与 TensorFlow 机器学习实用指南》
  • [Windows] 视频配音:Krillin AI v1.1.4
  • 如何使用PHP创建一个安全的用户注册表单,包含输入验证、数据过滤和结果反馈教程。
  • Android Cameara2 + MediaRecorder 完成录像功能
  • 如何构建一个高效的 iOS 应用日志体系?从开发调试到使用KeyMob上线排查的实践经验
  • iOS QQ抽屉式导航的实现
  • Matlab实现LSTM-SVM时间序列预测,作者:机器学习之心
  • 循环神经网络(RNN):原理、架构与实战
  • 织梦dedecms arclist最新发布日期显示红色
  • 如何在 Windows 和 Mac 上擦拭和清洁希捷外置硬盘
  • 清远市网站建设/郑州seo排名优化
  • 装修网站制作设计价格费用/写一篇软文推广自己的学校
  • 家装公司加盟/山东seo费用多少
  • 为什么要建设应急管理网站/石家庄seo按天扣费
  • 整人做我女朋友网站/seo网络推广公司排名
  • 嘉兴seo公司网站/线上推广平台报价